Книга Kaggle, Машинное обучение и анализ данных, Банахевич К., Массарон Л., 2024.
Книга рассказывает о продвинутых приёмах машинного обучения и науки о данных (data science) на основе задач, решаемых на всемирно известной платформе Kaggle. Показано (в том числе на примере увлекательных интервью с Kaggle-гроссмейстерами), как устроена платформа Kaggle и проводимые на ней соревнования. Изложенный материал позволяет развить необходимые навыки и собрать портфолио по машинному обучению, анализу данных, обработке естественного языка, работе с множествами. Подобран уникальный пул задач, охватывающих различные классификационные и оценочные метрики, методы обучения нейронных сетей, схемы валидации, выявление паттернов и трендов в материале любой сложности.

Создание команд и нетворкинг.
Хотя вычислительные ресурсы важны, решающую роль в соревнованиях играют знания и способности участников. Часто для успеха необходимы совместные усилия целой команды. На соревнованиях (кроме категории Recruitment, где компания может требовать только индивидуального участия) обычно нет ограничений на формирование команд. Как правило, в команде должно быть не более 5 человек.
Преимущество создания команды — объединение усилий для поиска решений. Команда единомышленников потратит на работу над задачей больше времени, чем один человек. Важно и то, что разные люди обладают различными навыками и знаниями в разных областях.
Однако у объединения есть и недостатки. Координировать усилия для достижения общей цели непросто, и могут возникать различные проблемы. Самая частая из них — недостаточная вовлеченность или вовсе бездействие некоторых участников, но хуже всего ситуации, когда один из членов команды нарушает правила — в результате дисквалифицировать могут всех — или вовсе "шпионит" в пользу другой команды.
ОГЛАВЛЕНИЕ.
Предисловие.
Составители.
Об авторах.
О рецензентах.
О респондентах.
Введение.
Для кого эта книга.
О чем эта книга.
Часть I. Знакомство с соревнованиями.
Часть II. Оттачивание соревновательных навыков.
Часть III. Использование соревнований в своей карьере.
Как получить максимальную отдачу от этой книги.
Загрузите файлы с примерами кода.
Загрузите цветные изображения.
Условные обозначения и соглашения.
Часть I. Знакомство с соревнованиями Kaggle.
Глава 1. Знакомство с Kaggle и другими соревнованиями по науке о данных.
Появление и рост соревновательных платформ.
Соревновательная платформа Kaggle.
История Kaggle.
Другие конкурсные платформы.
Знакомство с Kaggle.
Стадии соревнования.
Типы соревнований и примеры.
Отправка решения и таблица результатов.
Парадигма каркаса для общих задач.
Что может пойти не так.
Вычислительные ресурсы.
Kaggle Notebooks.
Создание команд и нетворкинг.
Уровни и рейтинг.
Критика и возможности.
Резюме.
Глава 2. Организация данных.
Создание датасета.
Сбор данных.
Работа с датасетами.
Kaggle Datasets и Google Colab.
Юридические вопросы.
Резюме.
Глава 3. Работаем и учимся с Kaggle Notebooks.
Создание блокнота.
Запуск блокнота.
Сохранение блокнотов на GitHub.
Как получить максимум от Kaggle Notebooks.
Переход на Google Cloud Platform.
На шаг дальше.
Курсы Kaggle Learn.
Резюме.
Глава 4. Используем форумы.
Как работают форумы.
Примеры обсуждений.
Сетевой этикет.
Резюме.
Часть II. Оттачивание соревновательных навыков.
Глава 5. Задачи и метрики на соревнованиях.
Метрики оценивания и целевые функции.
Основные типы задач.
Регрессия.
Классификация.
Задачи ранжирования.
Датасет Meta Kaggle
Как быть с незнакомыми метриками.
Метрики для задач регрессии.
Средний квадрат и R-квадрат.
Среднеквадратичная ошибка.
Среднеквадратичная логарифмическая ошибка.
Средняя абсолютная ошибка.
Метрики для задач классификации.
Доля правильных ответов.
Точность и полнота.
F-мера.
Log Loss и ROC-AUC.
Коэффициент корреляции Мэтьюса.
Метрики для многоклассовой классификации.
Метрики для задач детектирования объектов.
Отношение площадей ограничивающих рамок.
Коэффициент Дайса.
Метрики для многоклассовой классификации и построение рекомендаций.
МАР@{К}.
Оптимизация метрики.
Нестандартные метрики и целевые функции.
Постобработка предсказаний.
Предсказание вероятностей и их корректировка.
Резюме.
Глава 6. Построение схемы валидации.
Подглядывание.
Почему важна валидация.
Смещение и разброс.
Стратегии разделения данных.
Контроль на отложенных данных.
Вероятностные методы оценки качества.
Контроль по к блокам.
Случайные разбиения.
Бутстрэп.
Настройка системы валидации.
Применение adversarial validation.
Пример реализации.
Различные распределения обучающих и тестовых данных.
Работа с утечками в данных.
Резюме.
Глава 7. Моделирование для табличных данных.
Tabular Playground Series.
Начальное состояние случайного генератора и воспроизводимость.
Разведочный анализ данных.
Понижение размерности методами t-SNE и UMAP.
Уменьшение размера данных.
Преобразования признаков.
Простые производные признаки.
Метапризнаки на основе строк и столбцов.
Целевое кодирование.
Важность признаков и оценка качества.
Псевдометки.
Удаление шума с помощью автокодировщиков.
Нейросети для табличных конкурсов.
Резюме.
Глава 8. Оптимизация гиперпараметров.
Базовые методы оптимизации.
Поиск по сетке.
Случайный поиск.
Поиск сокращением вдвое.
Ключевые параметры и их использование.
Линейные модели.
Машины опорных векторов.
Случайные леса и экстремально рандомизированные деревья.
Градиентный бустинг над деревьями.
LightGBM.
XGBoost.
CatBoost.
HistGradientBoosting.
Байесовская оптимизация.
Использование Scikit-optimize.
Настройки байесовской оптимизации.
Обобщение байесовской оптимизации на параметры нейронных сетей.
Создание моделей с KerasTuner.
Подход ТРЕ и Optima.
Резюме.
Глава 9. Ансамбли: блендинг и стекинг.
Краткое введение в ансамблевые алгоритмы.
Усреднение.
Голосование.
Усреднение предсказаний.
Взвешенные средние.
Усреднение и кросс-валидация.
Корректируем усреднение для оценок ROC-AUC.
Блендинг и метамодели.
Блендинг: лучшие практики.
Стекинг.
Варианты стекинга.
Сложные решения с блендингом и стекингом.
Резюме.
Глава 10. Моделирование в компьютерном зрении.
Стратегии аугментации.
Встроенные аугментации Keras.
Подход на основе ImageDataGenerator.
Слои предварительной обработки
Пакет albumentations.
Классификация.
Обнаружение объектов.
Семантическая сегментация.
Резюме.
Глава 11. Моделирование для обработки естественного языка.
Анализ тональности текста.
Вопросы и ответы в открытом домене.
Стратегии аугментации текста.
Основные приемы.
Пакет nlpaug.
Резюме.
Глава 12. Соревнования по моделированию и оптимизации.
Игра Connect X.
Игра "Камень, ножницы, бумага".
Соревнование Santa 2020.
Такие разные игры.
Резюме.
Часть III. Использование соревнований в своей карьере.
Глава 13. Создание портфолио проектов и идей.
Создание портфолио с помощью Kaggle.
Использование блокнотов и обсуждений.
Использование датасетов.
Организация своего присутствия в Интернете за пределами Kaggle.
Блоги и публикации.
GitHub.
Мониторинг обновлений и информационных бюллетеней о соревнованиях.
Резюме.
Глава 14. Поиск новых профессиональных возможностей.
Налаживание связей с другими исследователями данных на соревнованиях.
Участие в Kaggle Days и других встречах Kaggle.
Привлечение к себе внимания и другие возможности трудоустройства.
Методика STAR.
Резюме (и несколько напутственных слов).
Предметный указатель.
Купить .
Теги: учебник по программированию :: программирование :: Банахевич :: Массарон :: машинное обучение :: анализ данных












