Проектирование систем машинного обучения, Хьюен Ч., 2023

Подробнее о кнопках "Купить"

По кнопкам "Купить бумажную книгу" или "Купить электронную книгу" можно купить в официальных магазинах эту книгу, если она имеется в продаже, или похожую книгу. Результаты поиска формируются при помощи поисковых систем Яндекс и Google на основании названия и авторов книги.

Наш сайт не занимается продажей книг, этим занимаются вышеуказанные магазины. Мы лишь даем пользователям возможность найти эту или похожие книги в этих магазинах.

Список книг, которые предлагают магазины, можно увидеть перейдя на одну из страниц покупки, для этого надо нажать на одну из этих кнопок.

Проектирование систем машинного обучения, Хьюен Ч., 2023.

   Сегодня машинное обучение — основной практический аппарат для применения искусственного интеллекта. Книга, основанная на стэнфордском учебном курсе, не ограничивается разбором конкретных библиотек, а описывает высокоуровневый подход к разработке систем машинного обучения, который упрощает их поддержку и развитие, позволяет избежать переобучения, искажения результатов. Рассказано, как сделать новую систему машинного обучения или нейронную сеть надёжной, репрезентативной и расширяемой, а также качественно доработать уже существующие системы. Также показано, как подобрать библиотеки и алгоритмы с учётом имеющегося множества данных и действующих бизнес-требований, конструировать признаки и отслеживать метрики.
Книга адресована программистам и специалистам по data science.

Проектирование систем машинного обучения, Хьюен Ч., 2023


Обзор ML-систем.
В ноябре 2016 года Google объявила о включении своей многоязычной системы нейронного машинного перевода в Google Translate, что стало одной из первых историй успеха глубоких искусственных нейронных сетей в массовом использовании. По данным Google, благодаря введению нейросети за одно обновление качество перевода улучшилось больше, чем за последние 10 лет, вместе взятых.

Успех глубокого обучения возродил интерес к машинному обучению (ML) в целом. С тех пор все больше и больше компаний обращаются к ML для решения своих самых сложных проблем. Всего за пять лет системы машинного обучения нашли свое применение практически во всех аспектах нашей жизни: как мы получаем доступ к информации, общаемся, работаем и находим любовь. Распространение ML было настолько стремительным, что уже трудно представить жизнь без него. Тем не менее существует еще множество других вариантов использования ML, ожидающих освоения в сферах здравоохранения, транспорта, сельского хозяйства и даже в деле познания Вселенной.

ОГЛАВЛЕНИЕ.
Отзывы о книге.
Предисловие.
Для кого предназначена эта книга?.
Чего вы не найдете в книге?.
Навигация по книге.
Репозиторий GitHub и сообщество.
Используемые обозначения.
Использование примеров кода.
Платформа онлайн-обучения O’Reilly.
Как с нами связаться?.
Благодарности.
Глава 1. Обзор ML-систем.
Когда использовать ML?.
Примеры использования машинного обучения.
Понимание систем машинного обучения.
Машинное обучение в исследованиях и в производстве.
Различные участники процесса и их требования.
Приоритеты вычислений.
Данные.
Объективность.
Интерпретируемость.
Обсуждение.
ML-системы в сравнении с традиционным ПО.
Итоги.
Глава 2. Введение в проектирование ML-систем.
Цели для бизнеса и для ML.
Требования к ML-системам.
Надежность.
Масштабируемость.
Обслуживаемость.
Адаптивность.
Итеративный процесс.
Формулирование ML-задач.
Типы ML-задач.
Классификация или регрессия?.
Бинарная или мультиклассовая классификация?.
Мультиклассовая или многометочная классификация?.
Несколько способов сформулировать задачу.
Целевые функции.
Разделение целей.
Данные или разум?.
Итоги.
Глава 3. Основы проектирования баз данных.
Источники данных.
Форматы данных.
JSON.
Row-Major или Column-Major?.
Текстовый формат или двоичный?.
Модели данных.
Реляционная модель.
NoSQL.
Документальная модель.
Графовая модель.
Структурированные или неструктурированные данные?.
Хранение и обработка данных.
Транзакционная и аналитическая обработка данных.
ETL: извлечение, преобразование, загрузка.
Режимы потока данных.
Передача данных через базы данных.
Передача данных через сервисы.
Передача данных в режиме реального времени.
Пакетная обработка или потоковая?.
Итоги.
Глава 4. Обучающие данные.
Семплирование.
Невероятностное семплирование.
Простое случайное семплирование.
Стратифицированное семплирование.
Взвешенное семплирование.
Резервуарное семплирование.
Семплирование по важности.
Разметка.
Ручные метки.
Множественность меток.
Родословная данных.
Естественные метки.
Длина петли обратной связи.
Справляемся с недостатками меток.
Слабый контроль.
Частичный контроль.
Трансферное обучение.
Активное обучение.
Несбалансированность классов.
Проблемы несбалансированности классов.
Справляемся с несбалансированностью классов.
Использование правильных оценочных метрик.
Методы уровня данных: ресемплинг.
Методы уровня алгоритма.
Обучение с учетом затрат.
Потеря, сбалансированная по классу.
Фокальная потеря.
Аугментация данных.
Простые преобразования с сохранением меток.
Возмущения.
Синтез данных.
Итоги.
Глава 5. Конструирование признаков.
Признаки сконструированные или автоматически генерируемые?.
Общий обзор методов конструирования признаков.
Обработка отсутствующих значений.
Удаление пропусков.
Заполнение пропусков.
Масштабирование.
Дискретизация.
Кодирование категориальных признаков.
Пересечение признаков.
Дискретный и непрерывный позиционный эмбеддинг.
Утечка данных.
Основные причины утечки данных.
Случайная разбивка коррелированных по времени данных вместо разбивки по времени.
Масштабирование перед разделением.
Заполнение отсутствующих данных статистикой из тестовой части.
Плохая обработка дублированных данных перед разделением.
Групповая утечка.
Утечка из процесса генерации данных.
Обнаружение утечек данных.
Конструирование хороших признаков.
Важность признаков.
Обобщение признаков.
Итоги.
Глава 6. Разработка модели и ее автономная оценка.
Разработка и обучение модели.
Оценка ML-моделей.
Шесть шагов по выбору модели.
Избегайте ловушки «хочу самое новое».
Начните с простых моделей.
Избегайте предубеждений при выборе модели.
Оценивайте хорошую производительность в сравнении с предыдущими хорошими показателями производительности.
Проанализируйте компромиссы.
Поймите предположения вашей модели.
Ансамбли.
Бэггинг.
Бустинг.
Стекинг.
Отслеживание экспериментов и управление версиями.
Отслеживание экспериментов.
Управление версиями.
Отладка ML-моделей.
Распределенное обучение.
Параллелизм данных.
Параллелизм моделей.
AutoML.
Программная часть AutoML: настройка гиперпараметров.
Аппаратная часть AutoML: архитектурный поиск и оптимизаторы обучения.
Четыре этапа разработки ML-модели.
Этап 1. До машинного обучения.
Этап 2. Простейшие ML-модели.
Этап 3. Оптимизация простых моделей.
Этап 4. Сложные модели.
Автономная оценка модели.
Базовые конфигурации.
Методы оценки.
Тест на возмущение.
Тест на инвариантность.
Тест на ожидаемые изменения.
Калибровка модели.
Оценка достоверности.
Оценка на основе срезов.
Итоги.
Глава 7. Развертывание модели и совершенствование ее сервиса прогнозирования.
Мифы о развертывании ML.
Миф 1: вы можете развертывать только одну или две модели за раз.
Миф 2: если мы ничего не делаем, производительность модели остается такой же.
Миф 3: нет нужды в частом обновлении модели.
Миф 4: большинству ML-инженеров не нужно беспокоиться о масштабировании.
Пакетное прогнозирование или онлайн-прогнозирование?.
От пакетного прогнозирования к онлайн-прогнозированию.
Объединение пакетного и потокового конвейеров.
Сжатие модели.
Низкоранговая факторизация.
Дистилляция знаний.
Прунинг.
Квантизация.
ML в облаке и на периферийных устройствах.
Компиляция и оптимизация модели под граничные устройства.
Оптимизация модели.
Использование ML для оптимизации ML.
ML в браузерах.
Итоги.
Глава 8. Сдвиги в распределении данных и мониторинг.
Причины сбоев ML-систем.
Сбои программной системы.
Сбои, характерные для ML.
Данные в производстве отличаются от данных при обучении.
Граничные случаи.
Вырожденные петли обратной связи.
Обнаружение вырожденных петель обратной связи.
Исправление вырожденных петель обратной связи.
Сдвиги в распределении данных.
Типы сдвигов данных.
Ковариационный сдвиг.
Сдвиг меток.
Концептуальный дрейф.
Общие сдвиги в распределении данных.
Обнаружение сдвигов в распределении данных.
Статистические методы.
Временные рамки окон для обнаружения сдвигов.
Устранение сдвигов распределения данных.
Мониторинг и наблюдаемость.
Специфичные для мониторинга ML метрики.
Мониторинг метрик, связанных с точностью.
Мониторинг прогнозов.
Мониторинг признаков.
Мониторинг сырых данных.
Инструменты мониторинга.
Журналы.
Информационные панели.
Оповещения.
Наблюдаемость.
Итоги.
Глава 9. Непрерывное обучение и тестирование в производстве.
Непрерывное обучение.
Переобучение без сохранения состояния или обучение с его сохранением?.
Почему нужно непрерывное обучение?.
Проблемы непрерывного обучения.
Доступ к свежим данным.
Оценка.
Алгоритмы.
Четыре этапа непрерывного обучения.
Этап 1: ручное переобучение без сохранения состояния.
Этап 2: автоматизированное переобучение.
Требования.
Этап 3: автоматизированное обучение с сохранением состояния.
Требования.
Этап 4: непрерывное обучение.
Требования.
Как часто надо обновлять модели?.
Ценность свежих данных.
Итерация данных или итерация моделей?.
Тестирование в производстве.
Теневое развертывание.
A/В-тестирование.
Канареечный релиз.
Тестирование чередованием.
Бандиты.
Контекстные бандиты как стратегия исследования.
Итоги.
Глава 10. Инфраструктура и инструменты для MLOps.
Хранение и вычисление.
Публичное облако или собственный ЦОД?.
Среда разработки.
Настройка среды разработки.
IDE.
Стандартизация среды разработки.
От разработки к производству: контейнеры.
Управление ресурсами.
Cron, планировщик и оркестратор.
Управление рабочим процессом обработки данных.
ML-платформа.
Развертывание модели.
Хранилища моделей.
Хранилища признаков.
Создать или купить?.
Итоги.
Глава 11. Человеческая сторона машинного обучения.
Пользовательский опыт.
Обеспечение согласованности.
Борьба с «преимущественно верными» прогнозами.
Система бэкапов.
Структура команды.
Кросс-функциональное взаимодействие между командами.
«Универсальные» специалисты по обработке данных.
Подход 1: создание отдельных команд для управления процессами.
Подход 2: специалисты по обработке данных управляют всем процессом.
Ответственный ИИ.
Безответственный ИИ: исследования инцидентов.
Пример 1: предвзятость автоматизированной оценки.
Провал 1: постановка неправильной цели.
Провал 2: недостаточная оценка присущих модели предубеждений.
Провал 3: отсутствие прозрачности.
Пример 2: опасность «анонимизированных» данных.
Советы по созданию ответственного ИИ.
Выясните источники искажений модели.
Поймите ограничения подхода, основанного на данных.
Оцените компромиссы между разными пожеланиями.
Продумывайте всё заранее.
Создайте карточки моделей.
Установите процессы для смягчения смещений.
Будьте в курсе тенденций ответственного ИИ.
Итоги.
Заключение.
Предметный указатель.
Об авторе.
Об обложке.



Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
Скачать книгу Проектирование систем машинного обучения, Хьюен Ч., 2023 - fileskachat.com, быстрое и бесплатное скачивание.

Скачать pdf
Ниже можно купить эту книгу, если она есть в продаже, и похожие книги по лучшей цене со скидкой с доставкой по всей России.Купить книги



Скачать - pdf - Яндекс.Диск.
Дата публикации:





Теги: :: :: ::


 


 

Книги, учебники, обучение по разделам




Не нашёл? Найди:





2025-12-24 05:12:02