Книга Kaggle, Машинное обучение и анализ данных, Банахевич К., Массарон Л., 2024

Купить бумажную книгу Купить и скачать электронную книгу

Подробнее о кнопках "Купить"

По кнопкам "Купить бумажную книгу" или "Купить электронную книгу" можно купить в официальных магазинах эту книгу, если она имеется в продаже, или похожую книгу. Результаты поиска формируются при помощи поисковых систем Яндекс и Google на основании названия и авторов книги.

Наш сайт не занимается продажей книг, этим занимаются вышеуказанные магазины. Мы лишь даем пользователям возможность найти эту или похожие книги в этих магазинах.

Список книг, которые предлагают магазины, можно увидеть перейдя на одну из страниц покупки, для этого надо нажать на одну из этих кнопок.

Ссылки на файлы заблокированы по запросу правообладателей.

Links to files are blocked at the request of copyright holders.

По кнопке выше «Купить бумажную книгу» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.

По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «Литрес», если она у них есть в наличии, и потом ее скачать на их сайте.

По кнопке «Найти похожие материалы на других сайтах» можно искать похожие материалы на других сайтах.

On the buttons above you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.

Книга Kaggle, Машинное обучение и анализ данных, Банахевич К., Массарон Л., 2024.

Книга рассказывает о продвинутых приёмах машинного обучения и науки о данных (data science) на основе задач, решаемых на всемирно известной платформе Kaggle. Показано (в том числе на примере увлекательных интервью с Kaggle-гроссмейстерами), как устроена платформа Kaggle и проводимые на ней соревнования. Изложенный материал позволяет развить необходимые навыки и собрать портфолио по машинному обучению, анализу данных, обработке естественного языка, работе с множествами. Подобран уникальный пул задач, охватывающих различные классификационные и оценочные метрики, методы обучения нейронных сетей, схемы валидации, выявление паттернов и трендов в материале любой сложности.

Книга Kaggle, Машинное обучение и анализ данных, Банахевич К., Массарон Л., 2024

Появление и рост соревновательных платформ.
Спортивное программирование имеет долгую историю, начавшуюся в 1970-е годы с первых соревнований ICPC (International Collegiate Programming Contest — Международная студенческая олимпиада по программированию). Исходно ICPC была соревнованием по написанию программ (поначалу— только на FORTRAN), решающих выданный набор задач. В ней участвовали малочисленные команды, представляющие университеты и компании. Для победы требовались логическое мышление, навыки программирования и командной работы.

Соревновательный азарт и возможность привлечь внимание рекрутеров способствовали вовлечению студентов и надолго обеспечили популярность соревнований по спортивному программированию. Некоторые финалисты ICPC впоследствии стали известными людьми, например Адам д’Анджело (Adam D’Angelo), бывший технический директор Facebook и основатель Quora, Николай Дуров, сооснователь мессенджера Telegram, и Матеи Захария (Matei Zaharia), создатель Apache Spark. Все они, как и многие другие высококлассные профессионалы, участвовали в ICPC.

Вслед за ICPC появились и другие соревнования по спортивному программированию — в особенности после 2000 г., когда стало доступно удаленное участие, что упрощало и удешевляло проведение соревнований. Формат большинства соревнований схож: имеется набор задач, необходимо написать решающий эти задачи код. Победители получают призы, а также свою долю славы и внимания со стороны рекрутеров.

ОГЛАВЛЕНИЕ.
Предисловие.
Составители.
Об авторах.
О рецензентах.
О респондентах.
Введение.
Для кого эта книга.
О чем эта книга.
Часть I. Знакомство с соревнованиями.
Часть II. Оттачивание соревновательных навыков.
Часть III. Использование соревнований в своей карьере.
Как получить максимальную отдачу от этой книги.
Загрузите файлы с примерами кода.
Загрузите цветные изображения.
Условные обозначения и соглашения.
Часть I. Знакомство с соревнованиями Kaggle.
Глава 1. Знакомство с Kaggle и другими соревнованиями
по науке о данных.
Появление и рост соревновательных платформ.
Соревновательная платформа Kaggle.
История Kaggle.
Другие конкурсные платформы.
Знакомство с Kaggle.
Стадии соревнования.
Типы соревнований и примеры.
Отправка решения и таблица результатов.
Парадигма каркаса для общих задач.
Что может пойти не так.
Вычислительные ресурсы.
Kaggle Notebooks.
Создание команд и нетворкинг.
Уровни и рейтинг.
Критика и возможности.
Резюме.
Глава 2. Организация данных.
Создание датасета.
Сбор данных.
Работа с датасетами.
Kaggle Datasets и Google Colab.
Юридические вопросы.
Резюме.
Глава 3. Работаем и учимся с Kaggle Notebooks.
Создание блокнота.
Запуск блокнота.
Сохранение блокнотов на GitHub.
Как получить максимум от Kaggle Notebooks.
Переход на Google Cloud Platform.
На шаг дальше.
Курсы Kaggle Learn.
Резюме.
Глава 4. Используем форумы.
Как работают форумы.
Примеры обсуждений.
Сетевой этикет.
Резюме.
Часть II. Оттачивание соревновательных навыков.
Глава 5. Задачи и метрики на соревнованиях.
Метрики оценивания и целевые функции.
Основные типы задач.
Регрессия.
Классификация.
Задачи ранжирования.
Датасет Meta Kaggle
Как быть с незнакомыми метриками.
Метрики для задач регрессии.
Средний квадрат и R-квадрат.
Среднеквадратичная ошибка.
Среднеквадратичная логарифмическая ошибка.
Средняя абсолютная ошибка.
Метрики для задач классификации.
Доля правильных ответов.
Точность и полнота.
F-мера.
Log Loss и ROC-AUC.
Коэффициент корреляции Мэтьюса.
Метрики для многоклассовой классификации.
Метрики для задач детектирования объектов.
Отношение площадей ограничивающих рамок.
Коэффициент Дайса.
Метрики для многоклассовой классификации и построение рекомендаций.
МАР@{К}.
Оптимизация метрики.
Нестандартные метрики и целевые функции.
Постобработка предсказаний.
Предсказание вероятностей и их корректировка.
Резюме.
Глава 6. Построение схемы валидации.
Подглядывание.
Почему важна валидация.
Смещение и разброс.
Стратегии разделения данных.
Контроль на отложенных данных.
Вероятностные методы оценки качества.
Контроль по к блокам.
Случайные разбиения.
Бутстрэп.
Настройка системы валидации.
Применение adversarial validation.
Пример реализации.
Различные распределения обучающих и тестовых данных.
Работа с утечками в данных.
Резюме.
Глава 7. Моделирование для табличных данных.
Tabular Playground Series.
Начальное состояние случайного генератора и воспроизводимость.
Разведочный анализ данных.
Понижение размерности методами t-SNE и UMAP.
Уменьшение размера данных.
Преобразования признаков.
Простые производные признаки.
Метапризнаки на основе строк и столбцов.
Целевое кодирование.
Важность признаков и оценка качества.
Псевдометки.
Удаление шума с помощью автокодировщиков.
Нейросети для табличных конкурсов.
Резюме.
Глава 8. Оптимизация гиперпараметров.
Базовые методы оптимизации.
Поиск по сетке.
Случайный поиск.
Поиск сокращением вдвое.
Ключевые параметры и их использование.
Линейные модели.
Машины опорных векторов.
Случайные леса и экстремально рандомизированные деревья.
Градиентный бустинг над деревьями.
LightGBM.
XGBoost.
CatBoost.
HistGradientBoosting.
Байесовская оптимизация.
Использование Scikit-optimize.
Настройки байесовской оптимизации.
Обобщение байесовской оптимизации на параметры нейронных сетей.
Создание моделей с KerasTuner.
Подход ТРЕ и Optima.
Резюме.
Глава 9. Ансамбли: блендинг и стекинг.
Краткое введение в ансамблевые алгоритмы.
Усреднение.
Голосование.
Усреднение предсказаний.
Взвешенные средние.
Усреднение и кросс-валидация.
Корректируем усреднение для оценок ROC-AUC.
Блендинг и метамодели.
Блендинг: лучшие практики.
Стекинг.
Варианты стекинга.
Сложные решения с блендингом и стекингом.
Резюме.
Глава 10. Моделирование в компьютерном зрении.
Стратегии аугментации.
Встроенные аугментации Keras.
Подход на основе ImageDataGenerator.
Слои предварительной обработки
Пакет albumentations.
Классификация.
Обнаружение объектов.
Семантическая сегментация.
Резюме.
Глава 11. Моделирование для обработки естественного языка.
Анализ тональности текста.
Вопросы и ответы в открытом домене.
Стратегии аугментации текста.
Основные приемы.
Пакет nlpaug.
Резюме.
Глава 12. Соревнования по моделированию и оптимизации.
Игра Connect X.
Игра "Камень, ножницы, бумага".
Соревнование Santa 2020.
Такие разные игры.
Резюме.
Часть III. Использование соревнований в своей карьере.
Глава 13. Создание портфолио проектов и идей.
Создание портфолио с помощью Kaggle.
Использование блокнотов и обсуждений.
Использование датасетов.
Организация своего присутствия в Интернете за пределами Kaggle.
Блоги и публикации.
GitHub.
Мониторинг обновлений и информационных бюллетеней о соревнованиях.
Резюме.
Глава 14. Поиск новых профессиональных возможностей.
Налаживание связей с другими исследователями данных на соревнованиях.
Участие в Kaggle Days и других встречах Kaggle.
Привлечение к себе внимания и другие возможности трудоустройства.
Методика STAR.
Резюме (и несколько напутственных слов).
Предметный указатель.

Купить .

Дата публикации: 22.07.2025 05:35 UTC