Введение в статистическое обучение с примерами на языке R, Джеймс Г., Уиттон Д., Хасти Т., Тибширани Р., 2017.
Книга представляет собой доступно изложенное введение в статистическое обучение - незаменимый набор инструментов, позволяющих извлечь полезную информацию из больших и сложных наборов данных, которые начали возникать в последние 20 лет в таких областях, как биология, экономика, маркетинг, физика и др. В этой книге описаны одни из наиболее важных методов моделирования и прогнозирования, а также примеры их практического применения. Рассмотренные темы включают линейную регрессию, классификацию, создание повторных выборок, регуляризацию, деревья решений, машины опорных векторов, кластеризацию и др. Описание этих методов сопровождается многочисленными иллюстрациями и практическими примерами. Поскольку цель этого учебника заключается в продвижении методов статистического обучения среди практикующих академических исследователей и промышленных аналитиков, каждая глава включает примеры практической реализации соответствующих методов с помощью R - чрезвычайно популярной среды статистических вычислений с открытым кодом.
Издание рассчитано на неспециалистов, которые хотели бы применять современные методы статистического обучения для анализа своих данных. Предполагается, что читатели ранее прослушали лишь курс по линейной регрессии и не обладают знаниями матричной алгебры.
Данные по заработной плате.
В этом примере мы исследуем связь нескольких факторов с уровнем заработной платы у группы мужчин из центрально-атлантического региона США (в этой книге мы будем ссылаться на соответствующие данные как «набор данных Wage»). В частности, мы хотим выяснить зависимость между заработной платой работника (переменная wage) и его возрастом (age), уровнем образования (education), а также календарным годом (year). Посмотрите, например, на график, представленный слева на рис. 1.1, где показана связь между заработной платой и возрастом работников из этого набора данных. Имеется свидетельство в пользу того, что wage увеличивается по мере возрастания age, а затем снова снижается примерно после 60 лет. Синяя линия, которая соответствует оценке среднего уровня wage для заданного значения age, позволяет увидеть этот тренд более четко.
Зная возраст работника, мы можем предсказать его заработную плату по этой кривой. Однако на рис. 1.1 также хорошо виден значительный разброс относительно этого среднего значения, из чего следует, что сама по себе переменная age вряд ли позволит с большой точностью предсказать wage для конкретного человека.
Оглавление.
От переводчика.
Предисловие.
1. Введение.
2. Статистическое обучение.
2.1. Что такое статистическое обучение?.
2.1.1. Зачем оценивать f?.
2.1.2. Как мы оцениваем f?.
2.1.3. Компромисс между точностью предсказаний и интерпретируемостью модели.
2.1.4. Обучение с учителем и без учителя.
2.1.5. Различия между проблемами регрессии и классификации.
2.2. Описание точности модели.
2.2.1. Измерение качества модели.
2.2.2. Компромисс между смещением и дисперсией.
2.2.3. Задачи классификации.
2.3. Лабораторная работа: введение в R.
2.3.1. Основные команды.
2.3.2. Графики.
2.3.3. Индексирование данных.
2.3.4. Загрузка данных.
2.3.5. Дополнительные графические и количественные сводки.
2.4 Упражнения.
3. Линейная регрессия.
3.1. Простая линейная регрессия.
3.1.1. Оценивание коэффициентов.
3.1.2. Точность оценок коэффициентов.
3.1.3. Оценивание точности модели.
3.2. Множественная линейная регрессия.
3.2.1. Оценивание регрессионных коэффициентов.
3.2.2. Некоторые важные вопросы.
3.3. Другие аспекты регрессионной модели.
3.3.1. Качественные предикторы.
3.3.2. Расширения линейной модели.
3.3.3. Потенциальные проблемы.
3.4. Маркетинговый план.
3.5. Сравнение линейной регрессии с методом К ближайших соседей.
3.6. Лабораторная работа: линейная pei-рсссия.
3.6.1. Библиотеки.
3.6.2. Простая линейная регрессия.
3.6.3. Множественная линейная pегрессия.
3.6.4. Эффекты взаимодействия.
3.6.5. Нелинейные преобразования предикторов.
3.6.6. Качественные предикторы.
3.6.7. Написание функций.
3.7. Упражнения.
4. Классификация.
4.1. Общее представление о классификации.
4.2. Почему не линейная регрессия?.
4.3. Логистическая регрессия.
4.3.1. Логистическая модель.
4.3.2. Оценивание регрессионных коэффициентов.
4.3.3. Предсказания.
4.3.4. Множественная логистическая модель.
4.3.5. Логистическая регрессия для зависимых переменных с числом классов > 2.
4.4. Дискриминантный анализ.
4.4.1. Использование-теоремы Байеса для классификации.
4.4.2. Линейный дискриминантный анализ для р = 1.
4.4.3. Линейный дискриминантный анализ для р > 1.
4.4.4. Квадратичный дискриминантный анализ.
4.5. Сравнение методов классификации.
4.6. Лабораторная работа: логистическая регрессия, LDA, QDA и KNN.
4.6.1. Данные по цене акций.
4.6.2. Логистическая регрессия.
4.6.3. Линейный дискриминантный анализ.
4.6.4. Квадратичный дискриминантный анализ.
4.6.5. Метод К ближайших соседей.
4.6.6. Применение к данным но жилым прицепам.
4.7. Упражнения.
5. Методы создания повторных выборок.
5.1. Перекрестная проверка.
5.1.1. Метод проверочной выборки.
5.1.2. Перекрестная проверка по отдельным наблюдениям.
5.1.3. k-кратная перекрестная проверка.
5.1.4. Компромисс между смещением и дисперсией в контексте k-кратной перекрестной проверки.
5.1.5. Перекрестная проверка при решении задач классификации.
5.2. Бутстреп.
5.3. Лабораторная работа: перекрестная проверка и бутстреп.
5.3.1. Метод проверочной выборки.
5.3.2. Перекрестная проверка по отдельным наблюдениям.
5.3.3. k-кратная перекрестная проверка.
5.3.4. Бутстреп.
5.4. Упражнения.
6. Отбор и регуляризация линейных моделей.
6.1. Отбор подмножества переменных.
6.1.1. Отбор оптимального подмножества.
6.1.2. Пошаговый отбор.
6.1.3. Выбор оптимальной модели.
6.2. Методы сжатия.
6.2.1. Гребневая регрессия.
6.2.2. Лассо.
6.2.3. Выбор гиперпараметра.
6.3. Методы снижения размерности.
6.3.1. Регрессия на главные компоненты.
6.3.2. Метод частных наименьших квадратов.
6.4. Особенности работы с данными большой размерности.
6.4.1. Данные большой размерности.
6.4.2. Что не так с большими размерностями?.
6.4.3. Регрессия для данных большой размерности.
6.4.4. Интерпретация результатов в задачах большой размерности.
6.5. Лабораторная работа 1: методы отбора подмножеств переменных.
6.5.1. Отбор 01гтимального подмножества.
6.5.2. Отбор путем пошагового включения и исключения переменных.
6.5.3. Нахождение оптимальной модели при помощи методов проверочной выборки и перекрестной проверки.
6.6. Лабораторная работа 2: гребневая регрессия гг лассо.
6.6.1. Гребневая регрессия.
6.6.2. Лассо.
6.7. Лабораторная работа 3: регрессия при помощи методов PCR и PLS.
6.7.1. Регрессия на главные компоненты.
6.7.2. Регрессия по методу частных наименьших квадратов.
6.8. Упражнении.
7. Выходя за пределы линейности.
7.1. Полиномиальная регрессия.
7.2. Ступенчатые функции.
7.3. Базисные функции.
7.4. Регрессионные сплайны.
7.4.1. Кусочно полиномиальная регрессия.
7.4.2. Ограничения и сплайны.
7.4.3. Представление сплайнов с помощью базисных функций.
7.4.4. Выбор числа и расположении узлов сочленения.
7.4.5. Сравнение с полиномиальной pегрессией.
7.5. Сглаживающие сплайны.
7.5.1. Общее представление о сглаживающих сплайнах.
7.5.2. Нахождение параметра сглаживании л.
7.6. Локальная регрессия.
7.7. Обобщенные аддитивные модели.
7.7.1. GAM для регрессионных задач.
7.7.2. GAM для задач классификации.
7.8. Лабораторная работа: нелинейные модели.
7.8.1. Полиномиальная регрессия и ступенчатые функции.
7.8.2. Сплайны.
7.8.3. GAM.
7.9. Упражнения.
8. Методы, основанные на деревьях решений.
8.1. Деревья решении: основные понятии.
8.1.1. Регрессионные деревья.
8.1.2. Деревья классификации.
8.1.3. Сравнение деревьев с линейными моделями.
8.1.4. Преимущества и недостатки деревьев решений.
8.2. Бэггинг, случайные леса, бустинг.
8.2.1. Бэггинг.
8.2.2. Случайные леса.
8.2.3. Бустинг.
8.3. Лабораторная работа: деревья решений.
8.3.1. Построение деревьев классификации.
8.3.2. Построение регрессионных деревьев.
8.3.3. Бэггинг и случайные леса.
8.3.4. Бустинг.
8.4. Упражнения.
9. Машины опорных векторов.
9.1. Классификатор с максимальным зазором.
9.1.1. Что такое гиперплоскость?.
9.1.2. Классификация с использованием гиперплоскости.
9.1.3. Классификатор с максимальным зазором.
9.1.4. Построение классификатора с максимальным зазором.
9.1.5. Случай, когда разделяющая гиперплоскость не существует.
9.2. Классификаторы на опорных векторах.
9.2.1. Общие представления о классификаторах на опорных векторах.
9.2.2. Более подробное описание классификатора на опорных векторах.
9.3. Машины опорных векторов.
9.3.1. Классификация с использованием нелинейных решающих границ.
9.3.2. Машина опорных векторов.
9.3.3. Применение к данным по нарушению сердечной функции.
9.4. Машины опорных векторов для случаев с несколькими классами.
9.4.1. Классификация типа «один против одного».
9.4.2. Классификация типа «один против всех».
9.5. Связь с логистической регрессией.
9.6. Лабораторная работа: машины опорных векторов.
9.6.1. Классификатор на опорных векторах.
9.6.2. Машина опорных векторов.
9.6.3. ROC-кривые.
9.6.4. SVM с несколькими классами.
9.6.5. Применение к данным по экспрессии генов.
9.7. Упражнения.
10. Обучение без учителя.
10.1. Трудность обучения без учителя.
10.2. Анализ главных компонент.
10.2.1. Что представляют собой главные компоненты?.
10.2.2. Альтернативная интерпретация главных компонент.
10.2.3. Дополнительный материал по РСА.
10.2.4. Другие приложения РСА.
10.3. Методы кластеризации.
10.3.1. Кластеризация по методу К средних.
10.3.2. Иерархическая кластеризация.
10.3.3. Практические аспекты применения кластеризации.
10.4. Лабораторная работа 1: анализ главных компонент.
10.5. Лабораторная работа 2: кластерный анализ.
10.5.1. Кластеризация по методу К средних.
10.5.2. Иерархическая кластеризация.
10.6. Лабораторная работа 3: анализ данных NCI60.
10.6.1. Применение РСА к данным NCI60.
10.6.2. Кластеризация наблюдений из набора данных NCI60.
10.7. Упражнения.
Предметный указатель.
Купить .
Теги: учебник по информатике :: информатика :: компьютеры :: Джеймс :: Уиттон :: Хасти :: Тибширани
Смотрите также учебники, книги и учебные материалы:
- Внедрение искусственного интеллекта в бизнес-практику, Преимущества и сложности, Дэвенпорт Т., 2021
- Информатика, учебник для вузов, Грошев А.С., Закляков П.В., 2018
- Методы вторичной обработки и распознавания изображений, Тропченко А.А., Тропченко А.Ю., 2015
- Информационная безопасность, Лойко В.И., Лаптев В.Н., Аршинов Г.А., Лаптев С.В., 2020
- Схемотехника телекоммуникационных устройств, Соколов С.В., Чикалов А.Н., Титов Е.В., 2016
- Информатика, 5-6 класс, Беляев А.А., Цыбуля И.Н., Самыкбаева Л.А., Осипова Н.Н., Мамбетакунов У.Э., 2020
- Информационные технологии, учебное пособие, Шандриков А.С., 2019
- Методика обучения компьютерной грамотности, Абрамова И.В., 2017