SQL для анализа данных, Танимура К., 2024

Подробнее о кнопках "Купить"

По кнопкам "Купить бумажную книгу" или "Купить электронную книгу" можно купить в официальных магазинах эту книгу, если она имеется в продаже, или похожую книгу. Результаты поиска формируются при помощи поисковых систем Яндекс и Google на основании названия и авторов книги.

Наш сайт не занимается продажей книг, этим занимаются вышеуказанные магазины. Мы лишь даем пользователям возможность найти эту или похожие книги в этих магазинах.

Список книг, которые предлагают магазины, можно увидеть перейдя на одну из страниц покупки, для этого надо нажать на одну из этих кнопок.

Ссылки на файлы заблокированы по запросу правообладателей.

Links to files are blocked at the request of copyright holders.

По кнопке выше «Купить бумажную книгу» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.

По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «Литрес», если она у них есть в наличии, и потом ее скачать на их сайте.

По кнопке «Найти похожие материалы на других сайтах» можно искать похожие материалы на других сайтах.

On the buttons above you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.


SQL для анализа данных, Танимура К., 2024.

   Рассказывается о возможностях SQL применительно к анализу данных. Сравниваются различные типы баз данных, описаны методы подготовки данных для анализа. Рассказано о типах данных, структуре SQL-запросов, профилировании, структурировании и очистке данных. Описаны методы анализа временных рядов, трендов, приведены примеры анализа данных с учетом сезонности. Отдельные главы посвящены когортному анализу, текстовому анализу, выявлению и обработке аномалий, анализу результатов экспериментов и А/В-тестирования. Описано создание сложных наборов данных, комбинирование методов анализа. Приведены практические примеры анализа воронки продаж и потребительской корзины.

SQL для анализа данных, Танимура К., 2024


Что такое анализ данных.
Сбор и хранение данных для анализа — занятие, присущее только человеку. Системы отслеживания запасов зерна, налогов и населения используются тысячи лет, а основам статистики сотни лет. Смежные дисциплины, в том числе статистическое управление процессами, исследование операций и кибернетика, активно развивались в XX веке. При описании анализа данных (data analysis) используется множество различных именований, таких как аналитика (analytics), бизнес-аналитика (business intelligence, BI), наука о данных (data science), наука о принятии решений (decision science), и у специалистов в этой области есть целый ряд названий должностей. Анализом данных также занимаются и маркетологи, менеджеры по продукту, бизнес-аналитики и многие другие. В этой книге я буду использовать термины аналитик данных (data analyst) и специалист по данным (data scientist) как синонимы, говоря о человеке, обрабатывающем данные с помощью SQL. Я буду называть программное обеспечение, используемое для создания отчетов и информационных панелей (dashboard), инструментами BI.

Анализ данных в современном понимании стал возможен благодаря развитию вычислительной техники и очень зависит от нее. Он сформировался под влиянием тенденций в исследованиях и в коммерциализации. Анализ данных сочетает в себе мощь компьютерных вычислений и методы традиционной статистики. Он состоит из сбора данных, интерпретации данных и публикации данных. Очень часто целью анализа является улучшение процесса принятия решений как людьми, так и все чаще машинами за счет автоматизации.

ОГЛАВЛЕНИЕ.
Предисловие.
Условные обозначения.
Использование примеров кода.
Благодарности.
ГЛАВА 1. Анализ с помощью SQL.
1.1. Что такое анализ данных.
1.2. Почему SQL.
Что такое SQL.
Преимущества SQL.
SQL против R или Python.
SQL как часть процесса анализа данных.
1.3. Типы баз данных.
Строчные базы данных.
Колоночные базы данных.
Другие типы хранилищ данных.
1.4. Заключение.
ГЛАВА 2. Подготовка данных для анализа.
2.1. Типы данных.
Типы в базах данных.
Структурированные и неструктурированные данные.
Количественные и качественные данные.
Первичные, вторичные и третичные данные.
Разреженные данные.
2.2. Структура SQL-запроса.
2.3. Профилирование: распределения.
Гистограммы и частоты.
Биннинг.
n-тили.
2.4. Профилирование: качество данных.
Поиск дубликатов.
Исключение дубликатов с помощью GROUP BY и DISTINCT.
2.5. Подготовка: очистка данных.
Очистка данных с помощью CASE.
Преобразование типов.
Работа с null-значениями: функции coalesce, nullif, nvl.
Отсутствующие данные.
2.6. Подготовка: структурирование данных.
Зависимость от конечной цели: для BI, визуализации, статистики или машинного обучения.
Сворачивание с помощью оператора CASE.
Разворачивание с помощью оператора UNION.
Операторы PIVOT и UNPIVOT.
2.7. Заключение.
ГЛАВА 3. Анализ временных рядов.
3.1. Работа с Date, Datetime и Time.
Преобразование часовых поясов.
Форматирование дат и временных меток.
Арифметические действия с датами.
Арифметические действия со временем.
Объединение данных из разных источников.
3.2. Набор данных о розничных продажах.
3.3. Анализ трендов данных.
Простые тренды.
Сравнение временных рядов.
Вычисление процента от целого.
Приведение к базовому периоду.
3.4. Скользящие временные окна.
Расчет скользящих временных окон.
Скользящие окна на разреженных данных.
Расчет накопительного итога.
3.5. Анализ с учетом сезонности.
Сравнение периодов: YoY и МоМ.
Сравнение периодов: этот же месяц в прошлом году.
Сравнение с несколькими предыдущими периодами.
3.6. Заключение.
ГЛАВА 4. Когортный анализ.
4.1. Составляющие когортного анализа.
4.2. Набор данных о законодателях.
4.3. Анализ удержания.
Общая кривая удержания.
Заполнение отсутствующих дат для большей точности.
Когорты, полученные из временного ряда.
Определение когорт по другой таблице.
Работа с разреженными когортами.
Когорты по датам, отличным от первой даты.
4.4. Связанные когортные анализы.
Выживаемость.
Возвращаемость или поведение при повторной покупке.
Накопительный итог.
4.5. Поперечный анализ через все когорты.
4.6. Заключение.
ГЛАВА 5. Текстовый анализ.
5.1. Текстовый анализ и SQL.
Что такое текстовый анализ.
Как можно использовать SQL для текстового анализа.
Когда не стоит использовать SQL.
5.2. Набор данных о наблюдениях НЛО.
5.3. Характеристики текста.
5.4. Разбор текста.
5.5. Преобразование текста.
5.6. Поиск в текстовых данных.
Подстановочные знаки: LIKE, ILIKE.
Точное соответствие: IN, NOT IN.
Регулярные выражения.
5.7. Конкатенация и реорганизация.
Конкатенация строк.
Реорганизация текстовых полей.
5.8. Заключение.
ГЛАВА 6. Выявление аномалий.
6.1. Возможности SQL для обнаружения аномалий.
6.2. Набор данных о землетрясениях.
6.3. Поиск аномалий.
Сортировка для поиска аномалий.
Расчет процентилей и стандартных отклонений.
Поиск аномалий с помощью графиков.
6.4. Виды аномалий.
Аномальные значения.
Аномальное количество или частота.
Аномальное отсутствие данных.
6.5. Обработка аномалий.
Исследование аномалий.
Исключение аномальных записей.
Замена на альтернативные значения.
Изменение масштаба.
6.6. Заключение.
ГЛАВА 7. Анализ экспериментов.
7.1. Плюсы и минусы SQL для анализа экспериментов.
7.2. Набор данных о мобильной игре.
7.3. Типы экспериментов.
Эксперименты с бинарными результатами: тест хи-квадрат.
Эксперименты с непрерывными результатами: Z-тест.
7.4. Спасение неудачных экспериментов.
Система назначения вариантов.
Выбросы.
Метод временных рамок.
Эксперименты с повторным воздействием.
7.5. Альтернативные анализы, когда контролируемые эксперименты невозможны.
Анализ «до и после».
Анализ естественных экспериментов.
Анализ популяции около порогового значения.
7.6. Заключение.
ГЛАВА 8. Создание сложных наборов данных.
8.1. SQL для сложных наборов данных.
Преимущества использования SQL.
Перенос логики в ETL.
Перенос логики в другие инструменты.
8.2. Упорядочивание кода.
Комментарии.
Регистр, отступы, круглые скобки и другие приемы форматирования.
Хранение кода.
8.3. Контроль над порядком вычислений.
Порядок выполнения операций SQL.
Подзапросы.
Временные таблицы.
Общие табличные выражения.
Расширения для группировки.
8.4. Управление размером набора данных и проблемы конфиденциальности.
Частичная выборка с помощью остатка от деления.
Уменьшение размерности.
Персональные данные и конфиденциальность.
8.5. Заключение.
ГЛАВА 9. Комбинирование методов анализа и полезные ресурсы.
9.1. Анализ воронки продаж.
9.2. Отток, отставшие и анализ разрывов.
9.3. Анализ потребительской корзины.
9.4. Полезные ресурсы.
Книги и блоги.
Наборы данных.
9.5. Заключение.
Об авторе.
Об обложке.
Предметный указатель.

Купить .
Дата публикации:






Теги: :: :: ::


Следующие учебники и книги:
Предыдущие статьи:


 


 

Книги, учебники, обучение по разделам




Не нашёл? Найди:





2025-11-05 11:46:05