Обработка данных на Python, Data Wrangling и Data Quality, Макгрегор С., 2024

Купить бумажную книгу Купить и скачать электронную книгу

Подробнее о кнопках "Купить"

По кнопкам "Купить бумажную книгу" или "Купить электронную книгу" можно купить в официальных магазинах эту книгу, если она имеется в продаже, или похожую книгу. Результаты поиска формируются при помощи поисковых систем Яндекс и Google на основании названия и авторов книги.

Наш сайт не занимается продажей книг, этим занимаются вышеуказанные магазины. Мы лишь даем пользователям возможность найти эту или похожие книги в этих магазинах.

Список книг, которые предлагают магазины, можно увидеть перейдя на одну из страниц покупки, для этого надо нажать на одну из этих кнопок.

Ссылки на файлы заблокированы по запросу правообладателей.

Links to files are blocked at the request of copyright holders.

По кнопке выше «Купить бумажную книгу» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.

По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «Литрес», если она у них есть в наличии, и потом ее скачать на их сайте.

По кнопке «Найти похожие материалы на других сайтах» можно искать похожие материалы на других сайтах.

On the buttons above you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.

Обработка данных на Python, Data Wrangling и Data Quality, Макгрегор С., 2024.

Книга посвящена первичной обработке данных (Data Wrangling) на Python и оценке их качества (Data Quality). Материал содержит основополагающие концепции, экспертные советы и ресурсы, необходимые для первичной обработки, извлечения, оценки и анализа данных. Все темы раскрыты на простых и наглядных примерах из практики. Даны необходимые и достаточные сведения о языке программирования Python 3.8+ для чтения, записи и преобразования данных из различных источников, а также для обработки данных в больших масштабах. Приведены лучшие практики документирования и структурирования кода. Описан сбор данных из файлов, веб-страниц и API. Рассмотрены приемы проведения базового статистического анализа наборов данных, а также наглядные и убедительные способы визуализации и представления данных. Изложение рассчитано как на новичков по обработке данных, так и на профессионалов.

Обработка данных на Python, Data Wrangling и Data Quality, Макгрегор С., 2024

Применение пользовательских функций.
Как вы. возможно, заметили, мне нравится рассматривать определяемые пользователем или просто пользовательские функции как своего рода программные "рецепты". Подобно кулинарным рецептам они предоставляют компьютеру переиспользуемые инструкции для преобразования одного или больше "ингредиентов" в виде сырых данных в другой, более полезный продукт. Иногда, как в случае с нашим "рецептом" greet_me(). такой параметр существует только один, но их может быть и несколько, причем с разными типами данных. Не существует правильных или неправильных способов создания пользовательских функций, как не существует правильных или неправильных способов создания кулинарных рецептов. У каждого будет свой собственный стиль. В то же самое время, что касается стратегии принятия решения о составляющих конкретной пользовательской функции, может быть полезным помнить о том, как мы обычно используем (или. возможно, даже создаем) рецепты для приготовления кулинарных блюд.

Например, очевидно, что вполне возможно создать один кулинарный рецепт "День благодарения", описывающий, как приготовить весь ужин для этого праздника с первого до последнего блюда. В зависимости от вашего стиля отмечания этого праздника, для "исполнения" этого рецепта может потребоваться от 2 до 72 часов. Но он будет очень полезным один день в году, без надобности во все остальные дни. И если бы вы захотели приготовить какое-либо отдельное блюдо из этого рецепта для другого праздника (например, картофельное пюре для Нового года), вам бы потребовалось просмотреть весь этот рецепт, чтобы найти и извлечь соответствующие ингредиенты и инструкции только для этого блюда. Это означало бы необходимость выполнения большого объема работы, прежде чем приступать к собственно приготовлению этого блюда.

ОГЛАВЛЕНИЕ.
ВВЕДЕНИЕ.
Для кого предназначена эта книга?.
Поедете сами или возьмете такси?.
Кому не следует читать эту книгу?.
Что ожидать от этой книги.
Типографские соглашения.
Использование примеров кода.
Цветные иллюстрации.
Возможности онлайнового обучения от компании O'Reilly.
Как связаться с нами.
Благодарности.
ГЛАВА 1. Введение в первичную обработку (выпас) и качество данных.
Что такое выпас данных?.
Что такое качество данных?.
Целостность данных.
Соответствие данных.
Почему мы выбрали Python?.
Универсальность.
Доступность.
Удобочитаемость.
Сообщество.
Альтернативы языку Python.
Написание и исполнение программ на языке Python.
Работа с кодом Python на локальном устройстве.
Введение в работу с командной строкой.
Установка языка Python, среды Jupyter Notebook и редактора кода.
Работа с кодом Python в режиме онлайн.
Hello World!.
Создание файла автономного сценария Python при помощи Atom.
Создание блокнота кода Python в Jupyter Notebook.
Создание блокнота кода Python в Google Colab.
Создаем программу.
В файле автономного сценария.
В блокноте.
Исполняем программу.
В файле автономного сценария.
В блокноте.
Документирование, сохранение и управление версиями своего кода.
Документирование.
Сохранение.
Управление версиями.
Заключение.
ГЛАВА 2. Введение в Python.
"Части речи" языков программирования.
Существительные ≈ переменные.
Важно ли конкретное имя?.
Наилучшие практики для именования переменных.
Глаголы ≈ функциям.
Применение пользовательских функций.
Библиотеки: занимаем пользовательские функции у других программистов.
Структуры управления: циклы и условные операторы.
Циклы.
Условные операторы.
Понимание ошибок.
Синтаксические ошибки.
Ошибки времени исполнения.
Логические ошибки.
Отправляемся в путь с данными Citi Bike.
Начинаем с создания псевдокода.
Масштабирование.
Заключение.
ГЛАВА 3. Понимание качества данных.
Оценка соответствия данных.
Достоверность данных.
Надежность данных.
Репрезентативность данных.
Оценка целостности данных.
Необходимые, но недостаточные.
Важные.
Достижимость.
Улучшение качества данных.
Очистка данных.
Аугментация данных.
Заключение.
ГЛАВА 4. Работа с файловыми и канальными данными на языке Python.
Структурированные и неструктурированные данные.
Работа со структурированными данными.
Файловые табличные форматы данных.
Выпас табличных данных посредством языка Python.
Выпас реальных данных: понимание безработицы.
XLSX, ODS и все остальные.
Данные фиксированной ширины.
Канальные данные — интерактивные обновления через Интернет.
Выпас канальных данных средствами языка Python.
Формат JSON: данные следующего поколения.
Работа с неструктурированными данными.
Текст на основе изображений: доступ к данным в формате PDF.
Выпас PDF-данных, используя Python.
Обращение к таблицам PDF посредством Tabula.
Заключение.
ГЛАВА 5. Доступ к интернет-данным.
Доступ к веб-данным XML и JSON.
Знакомство с API-интерфейсами.
Базовые API-интерфейсы на примере поисковой системы.
Специализированные API-интерфейсы: добавление простой аутентификации.
Получение ключа для API-интерфейса FRED.
Использование ключа API для запроса данных.
Чтение документации по API-интерфейсу.
Защита своего ключа API при использовании сценариев Python.
Создание файла учетных данных.
Использование учетных данных в отдельном сценарии.
Основы работы с файлом.gitignore.
Специализированные API-интерфейсы: работа с протоколом OAuth.
Получение учетной записи разработчика Twitter.
Создание приложения и учетных данных Twitter.
Кодирование ключа API и ключа секрета API.
Запрос токена доступа и данных из API-интерфейса Twitter.
Этические нормы при работе с API-интерфейсами.
Извлечение веб-данных: источник данных последней надежды.
Осторожно извлекаем данные с веб-сайта УГПТ.
Использование средств инспектирования браузера.
Решение Python для извлечения данных из веб-страницы: библиотека Beautiful Soup.
Заключение.
ГЛАВА 6. Оценка качества данных.
Пандемия и программа PPP.
Оценка целостности данных.
Имеют ли данные известное происхождение?.
Актуальны ли данные?.
Полные ли данные?.
Хорошо ли данные аннотированы?.
Являются ли данные крупномасштабными?.
Непротиворечивы ли данные?.
Многомерны ли наши данные?.
Атомарны ли данные?.
Понятны ли данные?.
Размерностно структурированы ли данные?.
Оценка соответствия данных.
Достоверность данных.
Надежность данных.
Репрезентативность данных.
Заключение.
ГЛАВА 7. Очистка, преобразование и дополнение данных.
Выбор подмножества данных системы Citi Bike.
Простое разбиение.
Регулярные выражения: супермощное средство сопоставления строк.
Создание дат.
Удаление хлама из файлов данных.
Декодирование дат Excel.
Создание настоящих данных CSV из данных фиксированной ширины.
Исправление разнообразности написаний.
Тернистый путь к "простым" решениям.
Опасные подводные камни.
Дополнение данных.
Заключение.
ГЛАВА 8. Структурирование и рефакторинг кода.
Обзор пользовательских функций.
Многократное использование кода.
Аккуратное и понятное документирование.
Недостаточная функциональность по умолчанию.
Область видимости.
Определение параметров функции.
Доступные опции.
Предоставление аргументов.
Возвращаемые значения.
Работа со стеком.
Рефакторинг для получения удовольствия и прибыли.
Функция для определения рабочих дней.
Опрятные метаданные.
Использование pydoc для документирования сценариев и пользовательских функций.
О полезности аргументов командной строки.
Отличия во взаимодействии со сценариями в автономных файлах и блокнотах.
Заключение.
ГЛАВА 9. Введение в анализ данных.
Вся суть — в контексте.
Одинаковые, но не совсем.
Что типично? Оценка центральной тенденции.
Что это значит?.
Поразмыслим нестандартно: выявляем выбросы.
Визуализация для анализа данных.
Какова форма наших данных? Учимся понимать гистограммы.
Вопрос за $2 миллиона.
Пропорциональный ответ.
Заключение.
ГЛАВА 10. Представление данных.
Основы визуального красноречия.
Сформулируйте свои данные.
Диаграммы, графики и картограммы — вот это да!.
Круговые диаграммы.
Линейчатые и столбчатые диаграммы.
Линейные диаграммы.
Диаграмма рассеяния.
Картограммы.
Элементы красноречивых визуальных эффектов.
"Мелкие" детали действительно имеют значение.
Доверяйте своим глазам (и экспертам).
Выбор масштаба.
Выбор цветовой гаммы.
Прежде всего делайте аннотации!.
От базового к красивому: настройка визуализации с помощью seaborn и matplotlib.
Выйдите за рамки основ.
Заключение.
ГЛАВА 11. За пределами Python.
Дополнительные инструменты для анализа данных.
Программы для работы с электронными таблицами.
OpenRefine.
Дополнительные инструменты для обмена и представления данных.
Редактирование изображений в форматах JPG, PNG и GIF.
Программное обеспечение для редактирования SVG и других векторных форматов.
Размышления об этике.
Заключение.
ПРИЛОЖЕНИЕ А. Другие ресурсы по программированию на Python.
Официальная документация Python.
Установка ресурсов Python.
Где искать библиотеки.
Следите за остротой своих инструментов.
Где получить больше информации.
ПРИЛОЖЕНИЕ Б. Еще несколько слов о Git.
Вы запускаете команду git push/pull и оказываетесь в странном текстовом редакторе.
Ваша команда git push/pull отклоняется.
Выполните команду git pull.
Краткое руководство по Git.
ПРИЛОЖЕНИЕ В. Поиск данных.
Репозитории данных и API.
Эксперты по предметным вопросам.
Запросы FOIA/L.
Кастомные методы сбора данных.
ПРИЛОЖЕНИЕ Г. Ресурсы для визуализации и информационного дизайна.
Основополагающие книги по визуализации информации.
Краткое руководство, за которым вы потянетесь.
Источники вдохновения.
ОБ АВТОРЕ.
КОЛОФОН.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ.

Купить .

Дата публикации: 02.07.2026 06:56 UTC