Причинно-следственный анализ для смелых и честных, Факур М., Груздев А.В., 2025.
Причинно-следственный анализ - это метод статистического анализа данных, помогающий выявить, как одно событие влияет на другое. Прочитав данную книгу, читатели научатся находить причинно-следственные связи в данных, применять правильные методы анализа и оценивать достоверность полученных выводов.
Издание предназначено специалистам по анализу данных, а также будет полезно бизнес-аналитикам и инженерам.

Механизм распределения.
В рандомизированном эксперименте механизм распределения объектов по группам (или, еще можно сказать, механизм назначения объектов в группы) является случайным. Как мы увидим позже, все методы причинно-следственного вывода так или иначе пытаются определить механизм назначения воздействия. Когда мы точно знаем, как ведет себя этот механизм, причинно-следственный вывод будет гораздо более надежным, даже если механизм присваивания не является случайным.
К сожалению, механизм распределения нельзя обнаружить, просто взглянув на данные. Например, если у вас есть набор данных, в котором высшее образование коррелирует с богатством, вы не сможете точно сказать, какой из этих факторов является причиной другого, просто взглянув на данные. Вам придется использовать свои знания об устройстве мира, чтобы привести доводы в пользу правдоподобного механизма распределения: действительно ли школы обучают людей, делая их более продуктивными и приводя их к более высокооплачиваемой работе. Или, если вы пессимистично относитесь к образованию, вы можете сказать, что школы ничего не делают для повышения производительности труда, и это всего лишь ложная корреляция, потому что только богатые семьи могут позволить себе дать ребенку высшее образование.
ОГЛАВЛЕНИЕ.
От издательства.
Часть I. ЯН.
Глава 1. Введение в причинность (каузальность).
Зачем беспокоиться?.
Наука о данных уже не та, что была раньше (или наконец-то стала таковой).
Отвечая на вопросы другого рода.
Когда ассоциация ЯВЛЯЕТСЯ причинно-следственной связью.
Смещение.
Ключевые идеи.
Глава 2. Рандомизированные эксперименты.
Золотой стандарт.
В школе «на удаленке».
Идеальный эксперимент.
Механизм распределения.
Ключевые идеи.
Глава 3. Обзор статистик: самое опасное уравнение.
Стандартная ошибка наших оценок.
Доверительные интервалы.
Тестирование гипотез.
P-значения.
Ключевые идеи.
Глава 4. Графовые причинно-следственные (каузальные) модели.
Рассуждая о причинности.
Ускоренный курс по графовым моделям.
Смещение, вызванное спутывающими факторами (ошибка спутывания, confounding bias).
Смещение из-за отбора (ошибка отбора, selection bias).
Ключевые идеи.
Глава 5. Поразительная эффективность линейной регрессии.
Все, что вам нужно, – это регрессия.
Теоретические аспекты регрессии.
Регрессия для неслучайных данных.
Смещение, вызванное опущенной переменной или спутывающим фактором (omitted variable bias или confounding bias).
Ключевые идеи.
Глава 6. Регрессия, обученная на сгруппированных данных, и регрессия с дамми-переменными.
Регрессия, обученная на сгруппированных данных.
Регрессия c дамми-переменными.
Ключевые идеи.
Глава 7. Помимо спутывающих переменных.
«Хорошие» контрольные переменные.
Преимущественно вредные контрольные переменные.
Плохие контрольные переменные – смещение из-за отбора.
Плохой COP-эффект.
Ключевые идеи.
Глава 8. Инструментальные переменные.
Обход смещения, возникшего из-за опущенной переменной.
Квартал рождения человека и влияние образования на заработную плату.
Коэффициент регрессии 1-го этапа.
Коэффициент короткой регрессии.
Инструментальные переменные, созданные вручную.
Несколько инструментальных переменных.
Ключевые идеи.
Глава 9. Несоблюдение требований и LATE.
Погружаемся в разнородный мир.
Локальный средний эффект воздействия (local average treatment effect – LATE).
Влияние на вовлеченность.
Ключевые идеи.
Глава 10. Матчинг (сопоставление объектов тестовой и контрольной групп).
Что же в конце концов делает регрессия?.
Субклассификационная оценка.
Матчинг-оценка.
Смещенность матчинг-оценки.
Проклятие размерности.
Ключевые идеи.
Глава 11. Оценка склонности (Propensity Score).
Психология роста.
Оценка склонности.
Взвешивание по склонности.
Прогнозирование оценки склонности.
Стандартная ошибка.
Распространенные проблемы с оценкой склонности.
Сопоставление по оценке склонности (propensity score matching).
Ключевые идеи.
Глава 12. Получение оценок с двойной робастностью.
Не кладите все яйца в одну корзину.
Получение оценок с двойной робастностью.
Ключевые идеи.
Глава 13. Метод разности разностей.
Три рекламных щита на юге Бразилии.
Метод разности разностей (difference in differences – DiD).
Непараллельные тренды.
Ключевые идеи.
Глава 14. Панельные данные и фиксированные эффекты.
Параллельные тренды.
Контролируйте то, что вы не видите.
Фиксированные эффекты.
Визуализация фиксированных эффектов.
Фиксированные эффекты для периодов времени.
Когда панельные данные вам не помогут.
Ключевые идеи.
Глава 15. Синтетический контроль.
Один удивительный математический трюк, позволяющий узнать то, что невозможно узнать.
У нас есть время.
Синтетический контроль в виде линейной регрессии.
Не экстраполируйте.
Делаем вывод.
Ключевые идеи.
Глава 16. Разрывной регрессионный дизайн.
Алкоголь убивает вас?.
Оценка RDD.
Взвешивание с помощью ядерной функции.
Эффект овчины и нечеткий RDD.
Тест Маккрари.
Ключевые идеи.
Дополнительное чтение.
Часть II. ИНЬ.
Глава 17. Курс по прогнозным моделям.
Машинное обучение в промышленности.
Ускоренный курс по машинному обучению.
Перекрестная проверка.
Прогнозы и политики.
Политика на основе одного признака.
Политика на основе модели машинного обучения.
Тонкая настройка политики.
Ключевые идеи.
Глава 18. Гетерогенные эффекты воздействия и персонализация.
От прогнозов к анализу причинно-следственных связей.
От ATE к CATE.
Прогнозирование чувствительности.
Ключевые идеи.
Дополнительное чтение.
Глава 19. Оценка качества причинно-следственных (каузальных) моделей.
Чувствительность по диапазонам прогнозов модели.
Кривая накопленной чувствительности (cumulative sensitivity curve).
Кривая накопленного выигрыша (cumulative gain curve).
Принимаем дисперсию во внимание.
Ключевые идеи.
Дополнительное чтение.
Глава 20. Модели «Подключи и пользуйся».
Формулировка проблемы.
Преобразование зависимой переменной.
Случай непрерывного воздействия.
Нелинейные эффекты воздействия.
Ключевые идеи.
Дополнительное чтение.
Глава 21. Метамодели.
S-модель.
T-модель.
X-модель.
Ключевые идеи.
Дополнительное чтение.
Глава 22. Несмещенное/ортогональное машинное обучение.
Машинное обучение для мешающих параметров.
Теорема Фриша–Во–Ловелла.
Теорема Фриша–Во–Ловелла на стероидах.
Оценивание CATE с помощью двойного машинного обучения.
Непараметрическое двойное/несмещенное машинное обучение.
Что такое непараметрическая оценка?.
Ненаучное двойное/несмещенное машинное обучение.
Возможно, потребуется больше эконометрики!.
Ключевые идеи.
Дополнительное чтение.
Глава 23. Проблемы, связанные с гетерогенностью эффекта и нелинейностью.
Эффекты воздействия для бинарного результата.
Симулируем данные.
Непрерывное воздействие и нелинейность.
Дополнительное чтение.
Ключевые идеи.
Дополнительное чтение.
Глава 24. Сага о разности разностей.
1. Рождение: многообещающие панельные данные.
2. Смерть: проблемы из-за гетерогенности эффекта.
Изменение эффекта воздействия с течением времени.
Дизайн анализа событий.
3. Просветление: гибкая функциональная форма.
Ключевые идеи.
Дополнительное чтение.
Глава 25. Синтетическая разность разностей.
Ревизия метода разности разностей.
Ревизия метода синтетического контроля.
Синтетическая разность разностей.
Временная гетерогенность эффекта и постепенная адаптация.
Оценивание плацебо-дисперсии.
Ключевые идеи.
Дополнительное чтение.
Приложение 1. Устранение смещения с помощью ортогонализации.
Приложение 2. Устранение смещения с помощью оценки склонности.
Приложение 3. Когда прогнозирование не работает.
Приложение 4. Когда прогнозные метрики опасны для причинно-следственных моделей.
Приложение 5. Конформный вывод для синтетического контроля.
Словарь.
Предметный указатель.
Купить .
Теги: учебник по программированию :: программирование :: Факур :: Груздев