Книга Kaggle, Машинное обучение и анализ данных, Банахевич К., Массарон Л., 2024.
Книга рассказывает о продвинутых приёмах машинного обучения и науки о данных (data science) на основе задач, решаемых на всемирно известной платформе Kaggle. Показано (в том числе на примере увлекательных интервью с Kaggle-гроссмейстерами), как устроена платформа Kaggle и проводимые на ней соревнования. Изложенный материал позволяет развить необходимые навыки и собрать портфолио по машинному обучению, анализу данных, обработке естественного языка, работе с множествами. Подобран уникальный пул задач, охватывающих различные классификационные и оценочные метрики, методы обучения нейронных сетей, схемы валидации, выявление паттернов и трендов в материале любой сложности.

Появление и рост соревновательных платформ.
Спортивное программирование имеет долгую историю, начавшуюся в 1970-е годы с первых соревнований ICPC (International Collegiate Programming Contest — Международная студенческая олимпиада по программированию). Исходно ICPC была соревнованием по написанию программ (поначалу— только на FORTRAN), решающих выданный набор задач. В ней участвовали малочисленные команды, представляющие университеты и компании. Для победы требовались логическое мышление, навыки программирования и командной работы.
Соревновательный азарт и возможность привлечь внимание рекрутеров способствовали вовлечению студентов и надолго обеспечили популярность соревнований по спортивному программированию. Некоторые финалисты ICPC впоследствии стали известными людьми, например Адам д’Анджело (Adam D’Angelo), бывший технический директор Facebook и основатель Quora, Николай Дуров, сооснователь мессенджера Telegram, и Матеи Захария (Matei Zaharia), создатель Apache Spark. Все они, как и многие другие высококлассные профессионалы, участвовали в ICPC.
Вслед за ICPC появились и другие соревнования по спортивному программированию — в особенности после 2000 г., когда стало доступно удаленное участие, что упрощало и удешевляло проведение соревнований. Формат большинства соревнований схож: имеется набор задач, необходимо написать решающий эти задачи код. Победители получают призы, а также свою долю славы и внимания со стороны рекрутеров.
ОГЛАВЛЕНИЕ.
Предисловие.
Составители.
Об авторах.
О рецензентах.
О респондентах.
Введение.
Для кого эта книга.
О чем эта книга.
Часть I. Знакомство с соревнованиями.
Часть II. Оттачивание соревновательных навыков.
Часть III. Использование соревнований в своей карьере.
Как получить максимальную отдачу от этой книги.
Загрузите файлы с примерами кода.
Загрузите цветные изображения.
Условные обозначения и соглашения.
Часть I. Знакомство с соревнованиями Kaggle.
Глава 1. Знакомство с Kaggle и другими соревнованиями
по науке о данных.
Появление и рост соревновательных платформ.
Соревновательная платформа Kaggle.
История Kaggle.
Другие конкурсные платформы.
Знакомство с Kaggle.
Стадии соревнования.
Типы соревнований и примеры.
Отправка решения и таблица результатов.
Парадигма каркаса для общих задач.
Что может пойти не так.
Вычислительные ресурсы.
Kaggle Notebooks.
Создание команд и нетворкинг.
Уровни и рейтинг.
Критика и возможности.
Резюме.
Глава 2. Организация данных.
Создание датасета.
Сбор данных.
Работа с датасетами.
Kaggle Datasets и Google Colab.
Юридические вопросы.
Резюме.
Глава 3. Работаем и учимся с Kaggle Notebooks.
Создание блокнота.
Запуск блокнота.
Сохранение блокнотов на GitHub.
Как получить максимум от Kaggle Notebooks.
Переход на Google Cloud Platform.
На шаг дальше.
Курсы Kaggle Learn.
Резюме.
Глава 4. Используем форумы.
Как работают форумы.
Примеры обсуждений.
Сетевой этикет.
Резюме.
Часть II. Оттачивание соревновательных навыков.
Глава 5. Задачи и метрики на соревнованиях.
Метрики оценивания и целевые функции.
Основные типы задач.
Регрессия.
Классификация.
Задачи ранжирования.
Датасет Meta Kaggle
Как быть с незнакомыми метриками.
Метрики для задач регрессии.
Средний квадрат и R-квадрат.
Среднеквадратичная ошибка.
Среднеквадратичная логарифмическая ошибка.
Средняя абсолютная ошибка.
Метрики для задач классификации.
Доля правильных ответов.
Точность и полнота.
F-мера.
Log Loss и ROC-AUC.
Коэффициент корреляции Мэтьюса.
Метрики для многоклассовой классификации.
Метрики для задач детектирования объектов.
Отношение площадей ограничивающих рамок.
Коэффициент Дайса.
Метрики для многоклассовой классификации и построение рекомендаций.
МАР@{К}.
Оптимизация метрики.
Нестандартные метрики и целевые функции.
Постобработка предсказаний.
Предсказание вероятностей и их корректировка.
Резюме.
Глава 6. Построение схемы валидации.
Подглядывание.
Почему важна валидация.
Смещение и разброс.
Стратегии разделения данных.
Контроль на отложенных данных.
Вероятностные методы оценки качества.
Контроль по к блокам.
Случайные разбиения.
Бутстрэп.
Настройка системы валидации.
Применение adversarial validation.
Пример реализации.
Различные распределения обучающих и тестовых данных.
Работа с утечками в данных.
Резюме.
Глава 7. Моделирование для табличных данных.
Tabular Playground Series.
Начальное состояние случайного генератора и воспроизводимость.
Разведочный анализ данных.
Понижение размерности методами t-SNE и UMAP.
Уменьшение размера данных.
Преобразования признаков.
Простые производные признаки.
Метапризнаки на основе строк и столбцов.
Целевое кодирование.
Важность признаков и оценка качества.
Псевдометки.
Удаление шума с помощью автокодировщиков.
Нейросети для табличных конкурсов.
Резюме.
Глава 8. Оптимизация гиперпараметров.
Базовые методы оптимизации.
Поиск по сетке.
Случайный поиск.
Поиск сокращением вдвое.
Ключевые параметры и их использование.
Линейные модели.
Машины опорных векторов.
Случайные леса и экстремально рандомизированные деревья.
Градиентный бустинг над деревьями.
LightGBM.
XGBoost.
CatBoost.
HistGradientBoosting.
Байесовская оптимизация.
Использование Scikit-optimize.
Настройки байесовской оптимизации.
Обобщение байесовской оптимизации на параметры нейронных сетей.
Создание моделей с KerasTuner.
Подход ТРЕ и Optima.
Резюме.
Глава 9. Ансамбли: блендинг и стекинг.
Краткое введение в ансамблевые алгоритмы.
Усреднение.
Голосование.
Усреднение предсказаний.
Взвешенные средние.
Усреднение и кросс-валидация.
Корректируем усреднение для оценок ROC-AUC.
Блендинг и метамодели.
Блендинг: лучшие практики.
Стекинг.
Варианты стекинга.
Сложные решения с блендингом и стекингом.
Резюме.
Глава 10. Моделирование в компьютерном зрении.
Стратегии аугментации.
Встроенные аугментации Keras.
Подход на основе ImageDataGenerator.
Слои предварительной обработки
Пакет albumentations.
Классификация.
Обнаружение объектов.
Семантическая сегментация.
Резюме.
Глава 11. Моделирование для обработки естественного языка.
Анализ тональности текста.
Вопросы и ответы в открытом домене.
Стратегии аугментации текста.
Основные приемы.
Пакет nlpaug.
Резюме.
Глава 12. Соревнования по моделированию и оптимизации.
Игра Connect X.
Игра "Камень, ножницы, бумага".
Соревнование Santa 2020.
Такие разные игры.
Резюме.
Часть III. Использование соревнований в своей карьере.
Глава 13. Создание портфолио проектов и идей.
Создание портфолио с помощью Kaggle.
Использование блокнотов и обсуждений.
Использование датасетов.
Организация своего присутствия в Интернете за пределами Kaggle.
Блоги и публикации.
GitHub.
Мониторинг обновлений и информационных бюллетеней о соревнованиях.
Резюме.
Глава 14. Поиск новых профессиональных возможностей.
Налаживание связей с другими исследователями данных на соревнованиях.
Участие в Kaggle Days и других встречах Kaggle.
Привлечение к себе внимания и другие возможности трудоустройства.
Методика STAR.
Резюме (и несколько напутственных слов).
Предметный указатель.
Купить .
Теги: учебник по программированию :: программирование :: Банахевич :: Массарон