Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом.

Как строятся конвейеры?
Наряду с профессией инженера данных в последние годы появилось множество инструментов для создания и поддержки конвейеров данных. Одни из них с открытым исходным кодом, другие коммерческие, а есть и такие, которые разработаны и применяются локально. Некоторые конвейеры написаны на Python, некоторые — на Java, на каком-то другом языке или вообще не содержат кода.
В этом карманном справочнике представлено исследование некоторых наиболее популярных продуктов и сред для построения конвейеров, а также обсуждение того, как определить наиболее подходящие инструменты и решения исходя из потребностей и ограничений вашей организации.
Хотя в книге нет подробных описаний всех таких продуктов, для некоторых из них приведены примеры и образцы кода. Весь программный код в этой книге написан на Python и SQL. Это наиболее распространенные и, пожалуй, самые доступные языки для построения конвейеров данных.
Оглавление.
Предисловие.
Для кого эта книга.
Условные обозначения, используемые в этой книге.
Скачивание примеров кода.
Благодарности.
Глава 1. Введение в конвейеры данных.
Что такое конвейеры данных?.
Кто строит конвейеры данных?.
Основы SQL и хранилища данных.
Python и/или Java.
Распределенные вычисления.
Основы системного администрирования.
Понимание общих целей.
Зачем создавать конвейеры данных?.
Как строятся конвейеры?.
Глава 2. Современная инфраструктура данных.
Разнообразие источников данных.
Принадлежность исходной системы.
Интерфейс сбора и структура данных.
Объем данных.
Чистота и достоверность данных.
Задержка и пропускная способность исходной системы.
Облачные хранилища данных и озера данных.
Инструменты сбора данных.
Инструменты преобразования и моделирования данных.
Платформы для оркестровки рабочих процессов.
Направленные ациклические графы (DAG).
Настройка вашей инфраструктуры данных.
Глава 3. Стандартные шаблоны конвейеров данных.
Шаблоны ETL и ELT.
Преимущество ELT перед ETL.
Подшаблон EtLT.
ELT в анализе данных.
ELT в науке о данных.
ELT для информационных продуктов и машинного обучения.
Этапы конвейера для машинного обучения.
Включение обратной связи в конвейер.
Дополнительная литература по конвейерам машинного обучения.
Глава 4. Сбор данных: начнем с извлечения.
Настройка среды Python.
Настройка облачного хранилища файлов.
Извлечение данных из БД MySQL.
Полное или инкрементное извлечение таблицы MySQL.
Репликация двоичного журнала данных MySQL.
Извлечение данных из БД PostgreSQL.
Полное или инкрементное извлечение таблицы Postgres.
Репликация данных с использованием журнала упреждающих записей.
Извлечение данных из MongoDB.
Извлечение данных из REST API.
Сбор потоковых данных с помощью Kafka и Debezium.
Глава 5. Сбор данных: загрузка в хранилище.
Настройка хранилища Amazon Redshift в качестве места назначения.
Загрузка данных в хранилище Redshift.
Инкрементные и полные загрузки.
Загрузка данных, извлеченных из журнала CDC.
Настройка хранилища Snowflake в качестве пункта назначения.
Загрузка данных в хранилище Snowflake.
Использование вашего файлового хранилища в качестве озера данных.
Фреймворки с открытым исходным кодом.
Коммерческие альтернативы.
Глава 6. Преобразование данных.
Неконтекстные преобразования.
Удаление дубликатов записей в таблице.
Парсинг URL-адресов.
Когда лучше выполнять преобразование?.
Основы моделирования данных.
Ключевые термины моделирования данных.
Моделирование полностью обновляемых данных.
Медленно меняющиеся измерения для полностью обновленных данных.
Моделирование инкрементно собираемых данных.
Моделирование данных только для добавления.
Моделирование данных об изменениях.
Глава 7. Оркестровка конвейеров.
Направленные ациклические графы.
Настройка и знакомство с Apache Airflow.
Установка и настройка.
База данных Airflow.
Веб-сервер и пользовательский интерфейс.
Планировщик.
Исполнители.
Операторы.
Создание DAG Airflow.
Простой DAG.
Конвейер ELT и DAG.
Дополнительные задачи конвейера.
Оповещения и уведомления.
Проверка данных.
Расширенные конфигурации оркестровки.
Связанные и несвязанные задачи конвейера.
Когда следует разделять DAG.
Координация нескольких DAG с сенсорами.
Управляемые варианты развертывания Airflow.
Другие фреймворки для оркестровки.
Глава 8. Проверка данных в конвейерах.
Проверяйте раньше, проверяйте чаще.
Качество данных исходной системы.
Риски процесса сбора данных.
Проверка данных с участием аналитиков.
Простой фреймворк проверки данных.
Простой фреймворк проверки данных.
Структура проверочного теста.
Запуск проверочного теста.
Использование фреймворка в DAG Airflow.
Когда нужно остановить конвейер, а когда предупредить и продолжить.
Дополнения к фреймворку.
Примеры проверок.
Дубликаты записей после сбора данных.
Неожиданное изменение числа строк после сбора данных.
Колебания значения показателя.
Коммерческие и открытые фреймворки проверки данных.
Глава 9. Передовые методы обслуживания конвейеров.
Как реагировать на изменения в исходных системах.
Добавление абстракции.
Поддержка контрактов данных.
Ограничения схемы при чтении.
Масштабирование сложности конвейеров.
Стандартизация сбора данных.
Повторное использование логики модели данных.
Обеспечение целостности зависимостей.
Глава 10. Измерение и мониторинг производительности конвейера.
Ключевые показатели конвейера.
Подготовка хранилища данных.
Структура данных.
Журналирование и получение данных о производительности.
Получение истории выполнения DAG из Airflow.
Добавление журналирования в инструмент проверки данных.
Преобразование данных о производительности.
Коэффициент успешного выполнения DAG.
Отслеживание времени выполнения DAG.
Объем выполненных тестов и доля успешных результатов.
Оркестровка конвейера производительности.
DAG конвейера производительности.
Раскрытие информации о производительности.
Предметный указатель.
Об авторе.
Об изображении на обложке.
Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
Скачать книгу Конвейеры данных, Карманный справочник, Денсмор Дж., 2024 - fileskachat.com, быстрое и бесплатное скачивание.
Скачать pdf
Ниже можно купить эту книгу, если она есть в продаже, и похожие книги по лучшей цене со скидкой с доставкой по всей России.Купить книги
Скачать - pdf - Яндекс.Диск.
Дата публикации:
Теги: справочник по программированию :: программирование :: Денсмор
Смотрите также учебники, книги и учебные материалы:
Следующие учебники и книги:
Предыдущие статьи: