Машинное обучение и анализ данных требуют качественных данных
О том, почему качество данных имеет большое значение для машинного обучения и анализа данных, размышляет Джо Маккендрик, независимый аналитик и внештатный автор целого ряда зарубежных IT-изданий. Также автор объясняет, зачем автоматизировать поиск структур в данных и как это сделать.
Машинное обучение и анализ данных достигли признания
Бизнес сейчас очень активно инвестирует в машинное обучение и анализ данных, обработку естественного языка и глубинное обучение. Особенно приятно видеть, что концепция искусственного интеллекта, наконец-то получила необходимую поддержку. До этого интерес к ней возникал и исчезал с переменным успехом на протяжении трёх десятилетий. Каждая волна интереса разбивалась о разочарование по мере того, как компании понимали, что им сложно применить технологию для своих проблем и возможностей.
Возможно, в этот раз всё будет по-другому, и мы увидим, как ИИ выйдет на совершенно новый уровень. Искусственному интеллекту дует сейчас попутный ветер. У него наконец-то появилась возможность помочь системам и приложениям служить бизнесу и его клиентам с минимумом человеческой крови, пота и слёз.
Бизнес может сорваться в пропасть
Но нельзя забывать, что необходимая составляющая машинного обучения и анализа данных, обработки естественного языка и глубинного обучения – качественные данные. Данные должны быть не просто актуальными и надёжными. Они должны быть безупречными. Только тогда они помогут обновить и освежить алгоритмы ИИ, а аналитика будет эффективной. В противном случае мы увидим, как бизнес сорвётся в пропасть из-за своей автоматизации.
Я не могу в полной мере выразить важность доверия к данным, когда от них зависят инсайты, на которых строится бизнес.
Для эффективного машинного обучения и анализа данных – автоматизация определения структуры данных
Важность качества данных подчёркивают и эксперты технологического стартапа GumGum в своём последнем посте на TechCrunch. Они замечают, что «несмотря на то, что наш мир буквально затоплен данными (сейчас ежедневно собирается около 2,5 квинтиллиона битов в день). Их большая часть никак не маркирована и не структурирована. Это приводит к тому, что для большинства данных существующие форматы неконтролируемого обучения алгоритмов ИИ нельзя применить».
Из-за того, что целый пласт данных исключается из обучения ИИ, алгоритмы последнего обучаются хуже. Особенно заметно это для глубинного обучения. Оно «зависит от постоянного потока качественной, структурированной и маркированной информации», – замечают эксперты GumGum.
Для автоматизации – обучить ИИ самостоятельно вычленять структуру
Проблема в том, что «процесс поступления данных для машинного обучения и анализа данных похож на набивание колбасок: для обучения используются только контролируемые методы. А данные заранее скрупулёзно маркируются». Сотрудники GumGum замечают, что нужно больше автоматизировать процессы маркирования и индексации неструктурированных данных. Сейчас эти процессы громоздкие, а для изображений, графики и документов их вообще нельзя применить.
Танз и Картер озвучивают необходимость применять неконтролируемое обучение алгоритмов, чтобы те сами научились осознавать различия в неструктурированных данных. Это очень похоже на то, как новорождённые и дети развивают свои способности распознавать разные вещи и свои познавательные способности.
«Давайте исключим ситуацию, что компании нанимают людей для маркирования данных (что, действительно существует и дорого стоит). А также – что все организации мира неожиданно откроют все свои данные и раздадут их data scientists. Тогда решение проблемы недостатка данных для обучения ИИ одно – перестать полагаться на результаты работы искусственного интеллекта совсем. Или же вместо того, чтобы стараться собрать как можно больше данных, глубокое обучения может начать двигаться в сторону развития самих неконтролируемых методов обучения».
В ближайшие годы нужно будет сделать много, чтобы развить этот подход. Но это необходимая стадия полноценного развития ИИ и успешной реализации дата-центричных инициатив. Если эту стадию мы не пройдём, ИИ и его компоненты так и останутся ограничены структурированными данными (данными из реляционных баз). А это чревато однобоким пониманием клиентов компании и её бизнес-процессов.
Искусственный интеллект Informatica Clair уже умеет искать в некоторых данных структуру. Хотите знать, как? Читайте другую статью блога.
Обновлено: 22.03.2023
Опубликовано: 15.02.2019