Байесовский анализ на Python, Мартин О., 2020.
В книге представлены основные концепции байесовской статистики и ее практическая реализация на языке Python с использованием современной библиотеки вероятностного программирования РуМСЗ и новой библиотеки исследовательского анализа байесовских моделей ArviZ.
Полученные знания о вероятностном моделировании позволят вам самостоятельно проектировать и реализовать байесовские модели для собственных задач научной обработки данных.
Издание будет полезно всем специалистам по анализу данных, использующих в своей работе байесовское моделирование.
Работа с данными.
Данные - это важнейший ингредиент в статистике и науке о данных (даталогии). Данные поступают из различных источников, таких как эксперименты, компьютерные имитации, опросы и полевые наблюдения. Если мы являемся ответственными за генерацию или сбор данных, то всегда в первую очередь необходимо тщательно продумать и сформулировать вопросы, на которые нужно получить ответы, и определить используемые для этого методы, и только после этого приступать к обработке данных. В действительности существует целая область статистики, занимающаяся сбором данных, - планирование эксперимента (experimental design). В наше время, когда поток данных достиг невероятных размеров, мы иногда можем забыть о том, что сбор данных не всегда является простым и дешевым делом. Например, всем известно, что Большой адронный коллайдер генерирует сотни терабайтов данных в день, но не все помнят о том, что для его создания потребовались годы ручного и умственного труда.
В качестве обобщенного правила можно интерпретировать процесс генерации данных как случайный (стохастический), поскольку в этом процессе существует онтологическая, техническая и/или эпистемологическая неопределенность, то есть система по своей внутренней сущности является случайной, также существуют технические проблемы, добавляющие шум или ограничивающие наши возможности измерения с произвольной точностью, а кроме того, некоторые концептуальные теоретические ограничения, скрывающие от нас подробности. Из-за всех вышеперечисленных причин всегда необходимо интерпретировать данные в контексте используемых моделей, включая ментальные и формальные. Данные без моделей ни о чем не говорят.
ОГЛАВЛЕНИЕ.
Вступительное слово.
Об авторе.
О рецензентах.
Предисловие.
Глава 1. Вероятностное мышление.
Статистика, модели и подход, принятый в этой книге.
Работа с данными.
Байесовское моделирование.
Теория вероятностей.
Объяснение смысла вероятностей.
Определение вероятности.
Байесовский вывод с одним параметром.
Задача о подбрасывании монеты.
Взаимодействие с байесовским анализом.
Нотация и визуализация модели.
Обобщение апостериорного распределения.
Проверки апостериорного прогнозируемого распределения.
Резюме.
Упражнения.
Глава 2. Вероятностное программирование.
Вероятностное программирование.
Основы использования библиотеки РуМСЗ.
Решение задачи о подбрасывании монете использованием
библиотеки РуМСЗ.
Обобщение апостериорного распределения.
Решения на основе апостериорного распределения.
Гауссова модель в подробном изложении.
Гауссовы статистические выводы.
Надежные статистические выводы.
Сравнение групп.
d-мера Коэна.
Вероятность превосходства.
Набор данных tips.
Иерархические модели.
Редуцирование.
Еще один пример.
Резюме.
Упражнения.
Глава 3. Моделирование с использованием линейной регрессии.
Простая линейная регрессия.
Связь с машинным обучением.
Сущность моделей линейной регрессии.
Линейные модели и сильная автокорреляция.
Интерпретация и визуальное представление апостериорного
распределения.
Коэффициент корреляции Пирсона.
Робастная линейная регрессия.
Иерархическая линейная регрессия.
Корреляция, причинно-следственная связь и беспорядочность жизни.
Полиномиальная регрессия.
Интерпретация параметров полиномиальной регрессии.
Является ли полиномиальная регрессия конечной моделью.
Множественная линейная регрессия.
Спутывающие переменные и избыточные переменные.
Мультиколлинеарность или слишком сильная корреляция.
Маскировочный эффект переменных.
Добавление взаимодействий.
Дисперсия переменной.
Резюме.
Упражнения.
Глава 4. Обобщение линейных моделей.
Обобщенные линейные модели.
Логистическая регрессия.
Логистическая модель.
Набор данных iris.
Множественная логистическая регрессия.
Граница решения.
Реализация модели.
Интерпретация коэффициентов логистической регрессии.
Обработка коррелирующих переменных.
Работа с несбалансированными классами.
Регрессия с использованием функции softmax.
Дискриминативные и порождающие модели.
Регрессия Пуассона.
Распределение Пуассона.
Модель Пуассона с дополнением нулевыми значениями.
Регрессия Пуассона и модель Пуассона с дополнением нулевыми значениями.
Робастная логистическая регрессия.
Модуль GLM.
Резюме.
Упражнения.
Глава 5. Сравнение моделей.
Проверки прогнозируемого апостериорного распределения.
Лезвие Оккама - простота и точность.
Лишние параметры приводят к переподгонке.
Недостаточное количество параметров приводит к недоподгонке.
Баланс между простотой и точностью.
Измерения прогнозируемой точности.
Информационные критерии.
Логарифмическая функция правдоподобия и отклонение.
Информационный критерий Акаике.
Часто применяемый информационный критерий.
Парето-сглаженная выборка по значимости для перекрестной проверки LOOCV.
Другие информационные критерии.
Сравнение моделей с помощью библиотеки РуМСЗ.
Усреднение моделей.
Коэффициенты Байеса.
Некоторые дополнительные замечания.
Коэффициенты Байеса и информационные критерии.
Регуляризация априорных распределений.
Более подробно об информационном критерии WAIC.
Энтропия.
Расхождение Кульбака-Лейблера.
Резюме.
Упражнения.
Глава 6. Смешанные модели.
Смешанные модели.
Конечные смешанные модели.
Категориальное распределение.
Распределение Дирихле.
Неидентифицируемость смешанных моделей.
Как правильно выбрать число К.
Смешанные модели и кластеризация.
Смешанные модели с бесконечной размерностью.
Процесс Дирихле.
Непрерывные смешанные модели.
Биномиальное бета-распределение и отрицательное биномиальное распределение.
t-распределение Стьюдента.
Резюме.
Упражнения.
Глава 7. Гауссовы процессы.
Линейные модели и нелинейные данные.
Функции моделирования.
Многомерные гауссовы распределения и функции.
Ковариационные функции и ядра.
Гауссовы процессы.
Регрессия на основе гауссовых процессов.
Регрессия с пространственной автокорреляцией.
Классификация с использованием гауссова процесса.
Процессы Кокса.
Модель катастроф в угледобывающей промышленности.
Набор данных redwood.
Резюме.
Упражнения.
Глава 8. Механизмы статистического вывода.
Механизмы статистического вывода.
Немарковские методы.
Грид-вычисления.
Метод квадратической аппроксимации.
Вариационные методы.
Марковские методы.
Метод Монте-Карло.
Цепи Маркова.
Алгоритм Метрополиса-Гастингса.
Метод Монте-Карло с использованием механики Гамильтона.
Последовательный метод Монте-Карло.
Диагностирование выборок.
Сходимость.
Ошибка метода Монте-Карло.
Автокорреляция.
Эффективный размер выборки.
Расхождения.
Резюме.
Упражнения.
Глава 9. Что дальше?.
Предметный указатель.
Купить .
Теги: учебник по программированию :: программирование :: Мартин :: байесовский анализ
Смотрите также учебники, книги и учебные материалы:
- Django, Подробное руководство, Головатый А., Каплан-Мосс Д., 2010
- Python в системном администрировании UNIX и Linux, Гифт Н., Джонс Д., 2009
- Философия Java, Эккель Б., 2015
- Секреты Python, 59 рекомендаций по написанию эффективного кода, Слаткив Б., 2016
- Шаблоны корпоративных приложений, Фаулер М., 2016
- Программирование для нормальных с нуля на языке Python, часть 1, Сысоева М.В., Сысоев И.В., 2018
- Учим Python, делая крутые игры, Свейгарт Э., 2018
- R, Notes for Professionals