Осваиваем архитектуру Transformer, Йылдырым С., Асгари-Ченаглу М., 2022.
Основанные на трансформерах языковые модели - преобладающая тема исследований в области обработки естественного языка (NLP). В этой книге рассказывается, как создавать различные приложения NLP на основе трансформеров, используя библиотеку Python Transformers.
Вы познакомитесь с архитектурой трансформеров и напишете свою первую программу для работы с моделями на основе этой передовой технологии.
Книга адресована специалистам по NLP, преподавателям машинного обучения / NLP и тем, кто хочет освоить машинное обучение в части обработки естественного языка. Предполагается, что читатель владеет навыками программирования на языке Python, знает основы NLP и понимает, как работают глубокие нейронные сети.

ЧТО ТАКОЕ ДИСТРИБУТИВНАЯ СЕМАНТИКА?
Дистрибутивная семантика (Distributional semantics) описывает значение слова в виде векторного представления, в первую очередь исследуя характеристики встречаемости, а не его словарные определения. Теория предполагает, что слова, встречающиеся вместе в одной и той же среде, имеют схожие значения. Впервые ее сформулировал ученый Харрис (Distributional Structure Word, 1954). Например, слова собака и кошка чаще всего встречаются в одном и том же контексте. Одним из преимуществ дистрибутивного подхода является возможность исследовать и отслеживать так называемые лексико-семантические изменения -семантическую эволюцию слов с течением времени и в разных областях.
Традиционные подходы на протяжении многих лет опирались на языковые модели неупорядоченных наборов слов (Bag of Words, BoW) и n-граммы для построения представления слов и предложений. В подходе BoW слова и документы представляются с помощью прямого унитарного кодирования (one-hot encoding), которое является разреженным способом представления, также известным как модель векторного пространства (Vector Space Model, VSM).
Классификация текста, выявление сходства слов, извлечение семантических отношений, устранение неоднозначности смысла слов - эти и многие другие задачи NLP решали с помощью методов унитарного кодирования в течение многих лет. В свою очередь, модели языка на основе n-грамм присваивают вероятности последовательностям слов, чтобы мы могли либо вычислить вероятность того, что последовательности принадлежит корпусу, либо сгенерировать случайную последовательность на основе данного корпуса.
ОГЛАВЛЕНИЕ.
Об авторах.
О рецензенте.
Предисловие.
Для кого эта книга.
Какие темы охватывает эта книга.
Как получить максимальную отдачу от этой книги.
Скачивание исходного кода примеров.
Видеоролики Code in Action.
Условные обозначения и соглашения, принятые в книге.
Список опечаток.
Нарушение авторских прав.
ЧАСТЬ I. ПОСЛЕДНИЕ РАЗРАБОТКИ В ОБЛАСТИ NLP, ПОДГОТОВКА РАБОЧЕЙ СРЕДЫ И ПРИЛОЖЕНИЕ HELLO WORLD.
Глава 1. От последовательности слов к трансформерам.
Технические требования.
Эволюция подходов NLP в направлении трансформеров.
Что такое дистрибутивная семантика?.
Использование глубокого обучения.
Обзор архитектуры трансформеров.
Трансформеры и перенос обучения.
Заключение.
Дополнительная литература.
Глава 2. Знакомство с трансформерами на практике.
Технические требования.
Установка библиотеки Transformer с Anaconda.
Работа с языковыми моделями и токенизаторами.
Работа с моделями, предоставленными сообществом.
Сравнительное тестирование и наборы данных.
Тестирование быстродействия и использования памяти.
Заключение.
ЧАСТЬ II. МОДЕЛИ-ТРАНСФОРМЕРЫ – ОТ АВТОЭНКОДЕРОВ К АВТОРЕГРЕССИИ.
Глава 3. Языковые модели на основе автоэнкодеров.
Технические требования.
BERT – одна из языковых моделей на основе автоэнкодера.
Обучение автоэнкодерной языковой модели для любого языка.
Как поделиться моделями с сообществом.
Обзор других моделей с автоэнкодером.
Использование алгоритмов токенизации.
Заключение.
Глава 4. Авторегрессивные и другие языковые модели.
Технические требования.
Работа с языковыми моделями AR.
Работа с моделями Seq2Seq.
Обучение авторегрессивной языковой модели.
Генерация текста с использованием авторегрессивных моделей.
Тонкая настройка резюмирования и машинного перевода с помощью simpletransformers.
Заключение.
Дополнительная литература.
Глава 5. Тонкая настройка языковых моделей для классификации текста.
Технические требования.
Введение в классификацию текста.
Тонкая настройка модели BERT для двоичной классификации с одним предложением.
Обучение модели классификации с помощью PyTorch.
Тонкая настройка BERT для многоклассовой классификации с пользовательскими наборами данных.
Тонкая настройка BERT для регрессии пар предложений.
Использование run_glue.py для тонкой настройки моделей.
Заключение.
Глава 6. Тонкая настройка языковых моделей для классификации токенов.
Технические требования.
Введение в классификацию токенов.
Тонкая настройка языковых моделей для NER.
Ответы на вопросы с использованием классификации токенов.
Заключение.
Глава 7. Представление текста.
Технические требования.
Введение в представление предложений.
Эксперимент по выявлению семантического сходства с FLAIR.
Кластеризация текста с помощью Sentence-BERT.
Семантический поиск с помощью Sentence-BERT.
Заключение.
Дополнительная литература.
ЧАСТЬ III. ДОПОЛНИТЕЛЬНЫЕ ТЕМЫ.
Глава 8. Работа с эффективными трансформерами.
Технические требования.
Обзор эффективных, легких и быстрых трансформеров.
Способы уменьшения размера модели.
Работа с эффективным самовниманием.
Заключение.
Дополнительная литература.
Глава 9. Многоязычные и кросс-языковые модели.
Технические требования.
Моделирование языка перевода и обмен знаниями между языками.
XLM и mBERT.
Задачи выявления кросс-языкового сходства.
Кросс-языковая классификация.
Кросс-языковое обучение без подготовки.
Фундаментальные ограничения многоязычных моделей.
Заключение.
Дополнительная литература.
Глава 10. Трансформерная модель как самостоятельная служба.
Технические требования.
Запуск службы трансформерной модели с fastAPI.
Докеризация API.
Создание службы модели с использованием TFX.
Нагрузочное тестирование службы с помощью Locust.
Заключение.
Дополнительные источники информации.
Глава 11. Визуализация внимания и отслеживание экспериментов.
Технические требования.
Интерпретация механизма внимания.
Многоуровневая визуализация потоков внимания с помощью BertViz.
Заключение.
Дополнительная литература.
Предметный указатель.
Купить .
Теги: учебник по программированию :: программирование :: Йылдырым :: Асгари-Ченаглу