Введение в статистическое обучение с примерами на языке Python, Джеймс Г., Уиттен Д., Хасти Т., Тибширани Р., Тейлор Дж., 2024.
В этой книге доступным языком описывается все разнообразие форм статистического обучения. Рассматриваются линейная регрессия, классификация, методы повторной выборки, отбор и регуляризация, полиномиальная регрессия, сплайны, локальная регрессия, обобщенные аддитивные модели, деревья решений, метод опорных векторов, кластеризация, а также нейронные сети, анализ выживаемости и множественная проверка гипотез. Теоретическая часть дополнена примерами из реальной практики и разборами решений на языке Python.
Издание предназначено не только для опытных специалистов в области статистики, но и для тех, кто желает попробовать применить продвинутые техники статистического обучения при анализе своих данных.

Оценка точности модели.
Одна из основных целей книги состоит в том, чтобы познакомить читателя с широким спектром методов статистического обучения, который далеко не ограничивается одним стандартным методом линейной регрессии. А зачем нужно иметь в арсенале так много различных подходов? Неужели нельзя выбрать из них один лучший? Увы, в статистике ничего бесплатного не бывает, и ни один из существующих методов не может рассматриваться в качестве однозначного фаворита применительно ко всем возможным данным. С одними данными лучше себя проявит один метод, а с другими, даже очень похожими на первые, -другой. Таким образом, одним из важнейших и очень сложных навыков в этой области является умение применительно к конкретным данным выявить статистический метод, который покажет наилучший результат.
В этом разделе мы обсудим важные концепции, возникающие в процессе выбора наиболее подходящего метода статистического обучения для исследуемого набора данных. Далее в этой книге мы посмотрим, как применять все описанные здесь концепции на практике.
ОГЛАВЛЕНИЕ.
От издательства.
Предисловие.
О переводчике.
Глава 1. Введение.
Общий обзор статистического обучения.
Данные о зарплатах.
Данные по рынку акций.
Данные об экспрессии генов.
Краткая история статистического обучения.
О книге.
Для кого предназначена эта книга?.
Обозначения и матричная алгебра по-простому.
Структура книги.
Используемые в лабораторных работах и упражнениях наборы данных.
Сайт книги.
Источники.
Глава 2. Статистическое обучение.
2.1 Что такое статистическое обучение?.
2.1.1 Зачем нужно оценивать f?.
2.1.2 Как оценивать f?.
2.1.3 Компромисс между точностью предсказаний и интерпретируемостью модели.
2.1.4 Обучение с учителем и без учителя.
2.1.5 Регрессия против классификации.
2.2 Оценка точности модели.
2.2.1 Оценка качества подгонки.
2.2.2 Компромисс между смещением и дисперсией.
2.2.3 Задачи классификации.
2.3 Лабораторная работа: введение в Python.
2.3.1 Подготовка.
2.3.2 Основные команды.
2.3.3 Введение в числовой Python.
2.3.4 Графика.
2.3.5 Последовательности и срезы.
2.3.6 Индексирование данных.
2.3.7 Загрузка данных.
2.3.8 Циклы for.
2.3.9 Дополнение про графики и числа.
2.4 Упражнения.
Теоретические.
Практические.
Глава 3. Линейная регрессия.
3.1 Простая линейная регрессия.
3.1.1 Оценка коэффициентов.
3.1.2 Определение точности оценки коэффициентов.
3.1.3 Определение точности оценки модели.
3.2 Множественная линейная регрессия.
3.2.1 Оценка регрессионных коэффициентов.
3.2.2 Важные вопросы.
3.3 Прочие факторы регрессионного моделирования.
3.3.1 Качественные предикторы.
3.3.2 Расширения линейной модели.
3.3.3 Возможные проблемы.
3.4 Маркетинговый план.
3.5 Сравнение линейной регрессии и классификатора k-ближайших соседей.
3.6 Лабораторная работа: линейная регрессия.
3.6.1 Импорт библиотек.
3.6.2 Простая линейная регрессия.
3.6.3 Множественная линейная регрессия.
3.6.4 Прелести многомерной подгонки.
3.6.5 Эффекты взаимодействия.
3.6.6 Нелинейные преобразования предикторов.
3.6.7 Качественные предикторы.
3.7 Упражнения.
Теоретические.
Практические.
Глава 4. Классификация.
4.1 Введение в классификацию.
4.2 Почему не линейная регрессия?.
4.3 Логистическая регрессия.
4.3.1 Логистическая модель.
4.3.2 Оценивание регрессионных коэффициентов.
4.3.3 Предсказание.
4.3.4 Множественная логистическая регрессия.
4.3.5 Мультиномиальная логистическая регрессия.
4.4 Обобщенные модели для классификации.
4.4.1 Линейный дискриминантный анализ для p = 1.
4.4.2 Линейный дискриминантный анализ для p > 1.
4.4.3 Квадратичный дискриминантный анализ.
4.4.4 Наивный байесовский классификатор.
4.5 Сравнение методов классификации.
4.5.1 Аналитическое сравнение.
4.5.2 Практическое сравнение.
4.6 Обобщенные линейные модели.
4.6.1 Применение линейной регрессии к набору данных Bikeshare.
4.6.2 Пуассоновская регрессия на наборе данных Bikeshare.
4.6.3 Применимость обобщенных линейных моделей.
4.7 Лабораторная работа: логистическая регрессия, LDA, QDA и KNN.
4.7.1 Набор данных Smarket.
4.7.2 Логистическая регрессия.
4.7.3 Линейный дискриминантный анализ.
4.7.4 Квадратичный дискриминантный анализ.
4.7.5 Наивный байесовский классификатор.
4.7.6 Классификатор k-ближайших соседей.
4.7.7 Линейная и пуассоновская регрессия с набором данных Bikeshare.
4.8 Упражнения.
Теоретические.
Практические.
Глава 5. Методы повторной выборки.
5.1 Перекрестная проверка.
5.1.1 Метод проверочной выборки.
5.1.2 Перекрестная проверка по отдельным наблюдениям.
5.1.3 k-кратная перекрестная проверка.
5.1.4 Компромисс между смещением и дисперсией применительно к k-кратной перекрестной проверке.
5.1.5 Перекрестная проверка при решении задач классификации.
5.2 Бутстреп.
5.3 Лабораторная работа: перекрестная проверка и бутстреп.
5.3.1 Метод проверочной выборки.
5.3.2 Перекрестная проверка.
5.3.3 Бутстреп.
5.4 Упражнения.
Теоретические.
Практические.
Глава 6. Отбор и регуляризация линейных моделей.
6.1 Отбор подмножества переменных.
6.1.1 Отбор оптимального подмножества переменных.
6.1.2 Пошаговый отбор.
6.1.3 Выбор оптимальной модели.
6.2 Методы сжатия.
6.2.1 Гребневая регрессия.
6.2.2 Лассо.
6.2.3 Выбор гиперпараметра.
6.3 Методы снижения размерности.
6.3.1 Метод главных компонент.
6.3.2 Метод частных наименьших квадратов.
6.4 Размышляя о большой размерности.
6.4.1 Данные большой размерности.
6.4.2 Что не так с данными большой размерности?.
6.4.3 Регрессия в условиях большой размерности.
6.4.4 Интерпретация результатов в задачах большой размерности.
6.5 Лабораторная работа: линейные модели и методы регуляризации.
6.5.1 Методы отбора подмножеств переменных.
6.5.2 Гребневая регрессия и лассо.
6.5.3 Регрессия PCR и PLS.
6.6 Упражнения.
Теоретические.
Практические.
Глава 7. Выходим за рамки линейности.
7.1 Полиномиальная регрессия.
7.2 Ступенчатые функции.
7.3 Базисные функции.
7.4 Регрессионные сплайны.
7.4.1 Кусочно-полиномиальная регрессия.
7.4.2 Ограничения и сплайны.
7.4.3 Представление сплайнов с помощью базисных функций.
7.4.4 Выбор количества и расположения узлов.
7.4.5 Сравнение с полиномиальной регрессией.
7.5 Сглаживающие сплайны.
7.5.1 Введение в сглаживающие сплайны.
7.5.2 Выбор сглаживающего параметра λ.
7.6 Локальная регрессия.
7.7 Обобщенные аддитивные модели.
7.7.1 GAM для регрессионных задач.
7.7.2 GAM для задач классификации.
7.8 Лабораторная работа: нелинейные модели.
7.8.1 Полиномиальная регрессия и ступенчатые функции.
7.8.2 Сплайны.
7.8.3 Сглаживающие сплайны и GAM.
7.8.4 Локальная регрессия.
7.9 Упражнения.
Теоретические.
Практические.
Глава 8. Методы на основе деревьев решений.
8.1 Основы деревьев решений.
8.1.1 Регрессионные деревья.
8.1.2 Деревья классификации.
8.1.3 Деревья против линейных моделей.
8.1.4 Преимущества и недостатки деревьев.
8.2 Бэггинг, случайные леса, бустинг и байесовские аддитивные регрессионные деревья.
8.2.1 Бэггинг.
8.2.2 Случайные леса.
8.2.3 Бустинг.
8.2.4 Байесовские аддитивные регрессионные деревья.
8.2.5 Краткий вывод по ансамблевым методам, основанным на деревьях.
8.3 Лабораторная работа: методы на основе деревьев.
8.3.1 Построение деревьев классификации.
8.3.2 Построение регрессионных деревьев.
8.3.3 Бэггинг и случайный лес.
8.3.4 Бустинг.
8.3.5 Байесовские аддитивные регрессионные деревья.
8.4 Упражнения.
Теоретические.
Практические.
Глава 9. Метод опорных векторов.
9.1 Классификатор с максимальным зазором.
9.1.1 Что такое гиперплоскость?.
9.1.2 Классификация с использованием разделяющей гиперплоскости.
9.1.3 Классификатор с максимальным зазором.
9.1.4 Построение классификатора с максимальным зазором.
9.1.5 Случай с несуществующей разделяющей гиперплоскостью.
9.2 Классификаторы на опорных векторах.
9.2.1 Введение в классификаторы на опорных векторах.
9.2.2 Детали работы классификатора на опорных векторах.
9.3 Метод опорных векторов.
9.3.1 Классификация с использованием нелинейных решающих границ.
9.3.2 Метод опорных векторов.
9.3.3 Применение к данным о сердечных заболеваниях.
9.4 SVM для случаев с несколькими классами.
9.4.1 Классификация «один против одного».
9.4.2 Классификация «один против всех».
9.5 Связь с логистической регрессией.
9.6 Лабораторная работа: метод опорных векторов.
9.6.1 Классификатор на опорных векторах.
9.6.2 Метод опорных векторов.
9.6.3 ROC-кривые.
9.6.4 SVM с несколькими классами.
9.6.5 Применение на примере данных об экспрессии генов.
9.7 Упражнения.
Теоретические.
Практические.
Глава 10. Глубокое обучение.
10.1 Однослойные нейронные сети.
10.2 Многослойные нейронные сети.
10.3 Сверточные нейронные сети.
10.3.1 Сверточные слои.
10.3.2 Пулинговые слои.
10.3.3 Архитектура сверточной нейронной сети.
10.3.4 Аугментация данных.
10.3.5 Результаты использования обученного классификатора.
10.4 Классификация документов.
10.5 Рекуррентные нейронные сети.
10.5.1 Последовательные модели для классификации документов.
10.5.2 Прогнозирование временных рядов.
10.5.3 Резюме по рекуррентным нейронным сетям.
10.6 Когда нужно использовать глубокое обучение.
10.7 Обучение нейронных сетей.
10.7.1 Обратное распространение.
10.7.2 Регуляризация и стохастический градиентный спуск.
10.7.3 Метод прореживания.
10.7.4 Настройка нейронной сети.
10.8 Интерполяция и двойной спуск.
10.9 Лабораторная работа: глубокое обучение.
10.9.1 Однослойная нейронная сеть на наборе данных Hitters.
10.9.2 Многослойная нейронная сеть на наборе данных MNIST.
10.9.3 Сверточные нейронные сети.
10.9.4 Использование предварительно обученных сверточных моделей.
10.9.5 Классификация документов IMDB.
10.9.6 Рекуррентные нейронные сети.
10.10 Упражнения.
Теоретические.
Практические.
Глава 11. Анализ выживаемости и цензурированные данные.
11.1 Время выживаемости и цензурированное время.
11.2 Понятие цензурирования.
11.3 Кривая выживаемости по методу Каплана–Мейера.
11.4 Логарифмический ранговый тест.
11.5 Регрессионные модели с откликом о выживаемости.
11.5.1 Функция риска.
11.5.2 Пропорциональные риски.
11.5.3 Пример: набор данных BrainCancer.
11.5.4 Пример: набор данных Publication.
11.6 Сжатие модели пропорциональных рисков Кокса.
11.7 Дополнительные темы.
11.7.1 Значение площади под кривой для анализа выживаемости.
11.7.2 Выбор временной шкалы.
11.7.3 Предикторы, зависящие от времени.
11.7.4 Проверка предположения о пропорциональных рисках.
11.7.5 Деревья выживаемости.
11.8 Лабораторная работа: анализ выживаемости.
11.8.1 Набор данных BrainCancer.
11.8.2 Набор данных Publication.
11.8.3 Данные кол-центра.
11.9 Упражнения.
Теоретические.
Практические.
Глава 12. Методы обучения без учителя.
12.1 Сложности, связанные с обучением без учителя.
12.2 Анализ главных компонент.
12.2.1 Что такое главные компоненты?.
12.2.2 Другая интерпретация главных компонент.
12.2.3 Доля объясненной дисперсии.
12.2.4 Подробности анализа главных компонент.
12.2.5 Другое применение главных компонент.
12.3 Пропущенные значения и заполнение матрицы.
12.4 Методы кластеризации.
12.4.1 Кластеризация по методу k-средних.
12.4.2 Иерархическая кластеризация.
12.4.3 Практические сложности при применении кластеризации.
12.5 Лабораторная работа: обучение без учителя.
12.5.1 Анализ главных компонент.
12.5.2 Заполнение матрицы.
12.5.3 Кластеризация.
12.5.4 Пример с набором данных NCI60.
12.6 Упражнения.
Теоретические.
Практические.
Глава 13. Множественная проверка гипотез.
13.1 Краткий обзор проверки гипотез.
13.1.1 Проверка гипотезы.
13.1.2 Ошибки I и II рода.
13.2 Трудности множественной проверки гипотез.
13.3 Групповая вероятность ошибки.
13.3.1 Что такое групповая вероятность ошибки.
13.3.2 Способы контроля групповой вероятности ошибки.
13.3.3 Компромисс между групповой вероятностью ошибки и мощностью.
13.4 Ожидаемая доля ложных отклонений гипотез.
13.4.1 Представление ожидаемой доли ложных отклонений гипотез.
13.4.2 Метод Бенджамини–Хохберга.
13.5 Метод повторной выборки применительно к p-значениям и ожидаемой доле ложных отклонений гипотез.
13.5.1 Метод повторной выборки для p-значений.
13.5.2 Метод повторной выборки для ожидаемой доли ложных отклонений гипотез.
13.5.3 Когда бывают полезны методы повторной выборки?.
13.6 Лабораторная работа: множественная проверка гипотез.
13.6.1 Обзор проверки гипотез.
13.6.2 Групповая вероятность ошибки.
13.6.3 Ожидаемая доля ложных отклонений гипотез.
13.6.4 Метод повторной выборки.
13.7 Упражнения.
Теоретические.
Практические.
Предметный указатель.
Купить .
Теги: учебник по программированию :: программирование :: Джеймс :: Уиттен :: Хасти :: Тибширани :: Тейлор