Партнёры присылают много документов в разных форматах? Поможет парсинг данных от Informatica

О том, как эффективно применять парсинг данных и зачем это нужно, рассказывает Елизавета Сидорина. Елизавета – технический менеджер по продуктам Informatica в DIS Group. Только за последние полгода она разработала целый ряд проектов по парсингу данных с использованием Informatica Data Transformation для крупных российских компаний. Парсинг данных – это процесс разбора неструктурированного или сложноструктурированного документа (файла, текста, сообщения т.д.). Парсинг данных включает в себя извлечение данных, их структурирование и загрузку в формате, удобном для дальнейшего использования, обработки, анализа (например, в реляционном формате).
Эффективный парсинг данных в документообороте – скачок в операционной эффективности
Сведения от партнёров и клиентов могут поступать в самых разнообразных форматах (Excel, PDF, документах Microsoft Word, презентациях). Если из них необходимо извлечь определённую информацию, сотрудники чаще всего делают это вручную. Из-за человеческого фактора могут возникать ошибки и неточности. Когда бизнес начинает развиваться, документооборот растёт, приходится нанимать всё больше сотрудников. Операционные затраты растут, а эффективность падает.
Автоматизировать этот процесс может помочь парсинг данных с помощью Informatica Data Transformation. Инструмент эффективно работает даже со сложными иерархичными документами в разнообразных форматах.
Проект №1 по парсингу данных – торгово-производственная компания
В DIS Group обратилась одна из крупных российских торгово-производственных компаний. Чтобы заказать товары b2b-клиенты этой компании оформляют технические задания (ТЗ). В каждой компании-заказчике принят свой формат формирования ТЗ. Структура технических заданий также у всех разная: по-разному указаны наименование продукта, его характеристики, количество. В одном техническом задании может быть таблица, поля которой будут иметь соответствующее название. В другом – в текстовом документе указано: «ручка, ш., 54» или «ручка должна быть красной», или «ручка, толщина шарика от 0,5 миллиметров».
После получения ТЗ сотрудники торгово-производственной компании вручную ищут каждый товар в каталоге товаров для составления коммерческого предложения. Процесс это трудоёмкий и требует много человеко-часов. Его нужно было автоматизировать – настроить парсинг данных из ТЗ с помощью Informatica Data Transformation. Informatica Data Transformation легко справился с этой задачей, смог эффективно вычленять наименования товаров и их характеристики из технических заданий. Понять, какая именно характеристика указана (зелёный – это цвет или размер?), помогает Informatica Data Quality. На основе полученных данных Data Quality ищет в продуктовом каталоге товары, которые максимально полно соответствуют тому, что указано в ТЗ. Сложные и сомнительные случаи отправляются на проверку и разбор вручную людям. Результаты этой проверки возвращаются в Informatica, на основе этого система продолжает дообучаться. В вопросах оптимизации можно пойти ещё дальше: автоматически формировать коммерческое предложение. Informatica Data Transformation справится и с этим. Он поставит на поток подготовку таких коммерческих предложений, с которыми привыкли работать ваши клиенты, подрядчики и партнёры.
Проект №2 по парсингу данных – страховая компания
Второй проект был разработан для крупной страховой компании. Нужно было из договоров перестрахования автоматически извлекать определённые показатели и загружать эти сведения в систему. Форматы документов здесь оказались ещё более разнообразными. Но Informatica Data Transformation успешно справился и с ними.
Эффективный парсинг данных откроет перед страховой компанией большие возможности оптимизации операционной деятельности и затрат на это. А для бизнеса с таким масштабным документооборотом подобная оптимизация безусловно станет значительным конкурентным преимуществом. Остались вопросы по кейсам? Хотите узнать больше о парсинге данных с помощью Informatica Data Transformation. Пишите на почту info@dis-group.ru
Обновлено: 10.06.2019
Опубликовано: 10.06.2019