BIG DATA для разработчиков

Участники тренинга познакомятся с обновленным интерфейсом разработчика – Informatica Developer. Также, они знают об основных особенностях разработки для платформы Hadoop.Программа тренинга объединяет в себе два курса компании Informatica: «Знакомство со средством разработки – Informatica Developer» и «Особенности работы с Big Data Management». При необходимости, Вы можете пройти каждый тренинг отдельно, в зависимости от Ваших задач

 Материал курса построен на основании уникальных материалов и методик, разработанных компанией Informatica, мировым лидером в области интеграции данных по результатам исследования Gartner.

В результате обучения, слушатели смогут:

  • Извлекать данные из реляционных источников и плоских файлов;
  • Применять часто используемые трансформации;
  • Использовать динамические маппинги;
  • Применять Informatica Smart Executor;
  • Использовать средства мониторинга для поиска ошибок ;
  • Работать со сложными данными, такими как JSON, AVRO и Parquet;
  • Понимать, как Informatica работает с NoSQL данными.

Тренинг, в первую очередь, будет интересен:

  • Разработчикам, непосредственно работающим с продуктом Informatica Big Data Development;
  • Аналитикам и руководителям проектов, участвующим в проектах c Big Data;
  • Квалифицированные специалисты, желающим понять суть работы с Big Data и повысить свой профессиональный уровень.

Продолжительность тренинга составляет 4 дня (32 академических часа).

Модуль  1: Вступление

  • Начало работы с Developer tool
  • Краткий обзор Big Data Management
  • Архитектура
  • Обзор интерфейса Developer tool

Модуль 2: Работа с физическими данными

  • Объекты
  • Представление о физических объектах данных
  • Использование подключений к реляционным БД
  • Подключение к плоским файлам
  • Синхронизация объекта flat file data object

Модуль 3: Просмотр данных

  • Возможности средства просмотра данных
  • Поиск ошибок
  • Просмотр логов
  • Мониторинг активностей

Модуль  4: Разработка маппингов и трансформаций

  • Концепция маппингов и трансформаций
  • Основные трансформации
  • Разработка и валидация маппинга
  • Использование трансформаций в маппингах

Модуль 5: Работа с динамическими схемами и маппингами

  • Концепция динамических маппингов
  • Разработка и запуск динамических маппингов
  • Шаблоны

Модуль 6: Параметры

  • Концепция работы с параметрами
  • Использование параметр – файла
  • Использование набора параметров (parameter set)

Модуль  7: Процессы (Workflow)

  • Концепция Workflow
  • Создание workflow
  • Конфигурация Workflow

Модуль 8: Работа с приложениями (Application)

  • Концепция работы с Application
  • Создание и развертывание Application
  • Остановка и повторное развертывание Application

Модуль 9: Обзор курса Big Data Integration

  • Вступление
  • Программа тренинга
  • Доступ к учебным средам
  • Дополнительные тренинги

Модуль 10: Основы Big Data

  • Что такое Big Data?
  • Концепция Hadoop
  • Основные компоненты архитектуры Hadoop
  • The Hadoop Distributed File System (HDFS)
  • Назначение Name Node & Secondary Name Node
  • MapReduce
  • “Yet Another Resource Manager” (YARN) (MapReduce Version 2)

Модуль 11: Загрузка данных в хранилище

  • Основные проблемы в традиционных хранилищах данных
  • Требования к оптимальному хранилищу данных
  • Процессы загрузки данных

Модуль 12: Загрузка и выгрузка данных

  • PowerCenter Reuse Reports
  • Импорт маппингов PowerCenter в Developer
  • SQOOP
  • SQL to Mapping capability
  • Партиции и параллельная загрузка

Модуль 13: Big Data Management

  • Архитектура
  • Мир Big Data
  • Создай один раз запускай везде
  • The Informatica abstraction layer
  • Polyglot computing
  • The Smart Executor
  • Open source и инновации
  • Архитектура подключений
  • Использование сторонних приложений

Модуль 14: Informatica Polyglot

  • Управление в Hadoop
  • Hive MR/Tez
  • Blaze
  • Spark
  • Native
  • The Smart Executor

Модуль 15: Маппинги, мониторинг, поиск ошибок

  • Конфигурирование и запуск маппингов в  Native и Hadoop средах
  • Исполнение планов
  • Мониторинг маппингов
  • Поиск ошибок в маппингах
  • Просмотр результатов

Модуль 16:  проблемы Hadoop Data Integration и  оптимизация производительности

  • Описание проблем с запуском процессов в Hadoop
  • Тюнинг процессов Big Data Management
  • Оптимизация среды Hive
    • Оптимизация на уровне маппинга
    • Оптимизация на уровне сервиса DIS
    • Оптимизация на уровне кластера
    • Оптимизация на уровне кластера Hadoop
  • Рекомендации

Модуль 17: Качество данных в Hadoop

  • Процесс Data Quality
  • Исследование потенциала данных
  • Совместная работа разных ролей проекта
  • Модификация, управление и мониторинг Data Quality
  • Self Service Data Quality
  • Запуск маппингов Data Quality на Hadoop

Модуль 18: Обработка сложных файлов

  • Чтение сложных файлов
  • Трансформация Data Processor
  • Запись сложных файлов
  • Производительность: Партиционирование
  • Обработка и парсинг: Avro, Parquet, JSON, and XML file
  • Договоренности при работе с Data Processor Transformation

Модуль 19: Работа с NoSQL БД

  • CAP Theorem
  • HBase
  • MongoDB
  • Cassandra
Скачать описание курса

Записаться на курс



Другие курсы

У вас возникли вопросы?

Обучение

Записаться на тренинг

Поддержка

Получить поддержку

Свяжитесь с нами

Оставить сообщение