Интеллектуальная обработка данных или магия искусственного интеллекта
О том, как обработка данных с помощью искусственного интеллекта (ИИ) CLAIRE преобразует строки кода в понятный для бизнес-пользователя формат, как искусственный интеллект справляется с «дрейфом данных» и какие математические алгоритмы помогают ему в этом, рассказывает Эйнат Хафтель, вице-президент по управлению продуктом. В компании Informatica Эйнат курирует развитие машинного обучения и искусственного интеллекта.
«Каждый фокус состоит из трёх частей или действий. Первая часть называется «наживка». Фокусник показывает вам самый обычный предмет — колоду карт, птицу, или человека. Он демонстрирует предмет, возможно даже просит проверить, убедиться, что он реальный, не эфемерный, самый обычный, но, разумеется, это скорее всего не так. Второе действие называется «превращение». Фокусник берёт этот самый обычный предмет и делает с ним что-то необычное. В этот момент вы начинаете искать разгадку, но не находите, потому что не особенно стараетесь. Вы не хотите её знать. Вы хотите быть обманутым. Но вы не торопитесь хлопать, потому что заставить предмет исчезнуть — это еще не всё, его следует вернуть. Вот зачем нужна третья часть номера, самая сложная, часть, которую мы называем «престиж».
С этих слов начинается «Престиж» – один из наиболее известных фильмов режиссера Кристофера Нолана. Эта цитата прекрасно подходит к описанию принципов работы искусственного интеллекта. Она просто, но точно описывает наши чувства в тот момент, когда мы видим что-то, что кажется нам магическим, чего мы не можем понять.
Наживка
Наш фокусник – искусственный интеллект – берёт самый обычный предмет. Например, типичные электронные данные блога, которые генерируется браузером и включают в себя информацию об активностях пользователя на определённом сайте. Эти данные обычно формируются в документ, который сложно понять обычному пользователю. Необходимо иметь навыки разработчика для того, чтобы вручную перенести его в тот вид, который будет приносить реальную пользу бизнесу.
Превращение
Искусственный интеллект позволяет бизнес-пользователю или аналитику обработать и трансформировать этот непонятный набор данных в знакомый и простой вид таблицы.
Престиж
Но мы все знаем, что обычно приходится иметь дело не с одним набором данных. И не всегда все данные имеют одинаковые форматы. Методология Data Governance называет это «дрейфом данных». Дрейф данных – изменение их формата, содержания и скорости поступления.
Множество переменных влияет на содержание данных: устройство, с которого они поступили, версия его операционной системы, дата, географическое положение, браузер и многое другое. Эти переменные представляют серьёзную проблему для организаций, которые пытаются собрать, обработать и проанализировать новые данные.
Опрос 2016 года показал, что 26% респондентов перестали применять собираемые данные для аналитики из-за того, что не смогли привести их к единому формату. CLAIRE от Informatica может динамически и автоматически переносить данные из разных файлов в привычный вид таблицы.
Обработка данных не магия
В отличие от фокусников в фильме «Престиж» CLAIRE использует математические алгоритмы для обработки данных, а не магию.
Чтобы преобразовать данные в удобный формат, сначала нужно понять структуру первоначального файла, в котором они были собраны. Сперва CLAIRE делает несколько предположений о структуре данных, опираясь на базовый парсинг, основанный на знаках-разграничителях.
Теперь нужно понять, какая из предполагаемых структур верная. Для этого CLAIRE применяет математическую методологию – «генетическое программирование». Алгоритмы этой методологии достигают цели с помощью концепции эволюции, естественного отбора. CLAIRE обрабатывает и оценивает предполагаемые структуры файла по нескольким параметрам, например, по извлечённым доменам. Так она определяет их «приспособленность».
Следом идёт фаза «мутации». Алгоритм пытается немного изменить выбранные варианты структуры данных. Например, он «скрещивает» их между собой и наблюдает, не будет ли «приспособленность» у полученных таким образом новых структур выше. Это эволюционная фаза. Она завершает процесс, когда ей удаётся окончательно определить структуру первоначального массива данных, а значит, форму, в которой будет оптимально показать данные бизнес-пользователю. Такой механизм не требует участия человека. К тому же он не ограничен популярными форматами.
Обработка данных и определение их структуры не единственная функция CLAIRE. Но нельзя не отметить, что с этой задачей ИИ Informatica справляется блестяще. Он легко приспосабливается к «дрейфу данных», успешно работает с файлами системных журналов и иными данными, полученными с неисправных устройств.
Обновлено: 22.03.2023
Опубликовано: 12.07.2018