Трансформеры как универсальные аппроксиматоры seq-to-seq
Курсовая работа (1–2 курс, «Прикладная математика, программирование и ИИ» )
Короткая мотивация
Классическая теорема универсальной аппроксимации известна для полносвязных сетей. Для трансформеров доказано, что (а) без позиционной информации они универсальны в классе непрерывных перестановочно-эквивариантных отображений «последовательность → последовательность», а (б) с позиционными кодировками (особенно обучаемыми) — универсальны для произвольных непрерывных seq-to-seq функций на компактах. Это связывает архитектурные компоненты (самовнимание, позиционные коды, FFN) с выразительной мощностью. Цель курсовой — аккуратно разобрать соответствующие теоремы и воспроизвести минимальные эксперименты, демонстрирующие практическую аппроксимируемость и роль позиции.
Постановка задачи (по пунктам)
- Конспект (5–10 стр.) по теории.
- Кратко описать архитектуру энкодер–декодер Transformer (слои самовнимания, кросс-внимание, FFN, нормировки, остаточные связи).
- Изложить результаты об универсальности: (i) универсальная аппроксимация непрерывных перестановочно-эквивариантных seq-to-seq функций; (ii) снятие ограничения эквивариантности при добавлении позиционных кодировок (особенно обучаемых).
- Объяснить роль позиционных кодировок (абсолютные/относительные) и их влияние на выразительность.
- Кратко упомянуть родственные результаты о вычислительной мощности (тюринговая полнота) и недавние оценки скоростей аппроксимации.
- Мини-теоретический результат (аккуратный пересказ/эскиз).
- Сформулировать упрощённую версию теоремы: при наличии обучаемых позиционных кодировок класс трансформеров плотен в пространстве непрерывных отображений
- на компакте (равномерная метрика).
- Пояснить (на уровне эскиза), как самовнимание с позициями реализует «локальные базисные операторы», а FFN — нелинейное смешивание, обеспечивая универсальность.
- Сформулировать упрощённую версию теоремы: при наличии обучаемых позиционных кодировок класс трансформеров плотен в пространстве непрерывных отображений
- Практическая часть (Python; воспроизводимость).
- Синтетические seq-to-seq задачи: копирование, реверс, фиксированная перестановка, скользящее среднее/свёртка, простая арифметика по символам. Сравнить: (A) без позиций, (B) синусоидальные позиции, (C) обучаемые позиции.
- Непрерывный пример: аппроксимация оператора
- (линейная фильтрация с нелинейной предобработкой ). Метрики: -ошибка, зависимость ошибки от числа слоёв/голов/скрытой ширины.
- Генерализация по длине: тренировка на длинах , тест на (экстраполяция); сравнить разные позиции.
- Абляции (контрольные эксперименты).
- Варьировать: тип позиционных кодировок (нет/синусоидальные/обучаемые/относительные), число голов внимания, глубину, размер FFN; фиксировать влияние на ошибку и устойчивость обучения.
- Репозиторий и оформление.
- Репозиторий на Python/PyTorch: фиксированные seed,
requirements.txt, скрипты генерации данных/обучения/графиков, ноутбуки для воспроизведения. - Итоговый отчёт обязательно набирается в LaTeX: мотивация и терминология, формулировки теорем (с ссылками), эскиз доказательства, дизайн экспериментов, результаты и обсуждение, ограничения, ссылка на репозиторий.
- Репозиторий на Python/PyTorch: фиксированные seed,
Минимальные пререквизиты
Линейная алгебра, основы математического анализа и теории вероятностей, базовый Python/PyTorch. Курс по дифференциальным уравнениям не требуется.
Список литературы
- A. Vaswani, N. Shazeer, N. Parmar, et al. Attention Is All You Need. NeurIPS, 2017.
- C. Yun, S. Bhojanapalli, A. S. Rawat, S. Reddi, S. Kumar. Are Transformers Universal Approximators of Sequence-to-Sequence Functions? ICLR, 2020. (arXiv:1912.10077)
- J. Pérez, P. Marinković, J. S. Žnidarič, D. Bahdanau, Y. Bengio. Attention Is Turing Complete. JMLR, 22(75):1–64, 2021.
- S. Takakura, Y. Suzuki, T. Fukui, T. Miyato. Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions. ICML, 2023.
- M. Wang, Y. Zhang, Y. Li, et al. Understanding the Expressive Power and Mechanisms of Transformers: Approximation Rates and Beyond. NeurIPS, 2024.
Ожидаемый результат
- Отчёт (PDF), набранный в LaTeX (20–30 страниц без приложений), содержащий:
- краткий конспект по теории трансформеров и результатов об универсальной аппроксимации (перестановочная эквивариантность без позиций; универсальность при добавлении позиционных кодировок);
- формулировки ключевых теорем с корректными предположениями и ссылками на источники;
- мини-теоретическую часть: аккуратный пересказ/эскиз доказательства упрощённой теоремы плотности для (равномерная метрика);
- экспериментальную часть:
- синтетические seq-to-seq задачи (копирование/реверс/перестановка/свёртка/арифметика), сравнение (A) без позиций, (B) синусоидальные, (C) обучаемые;
- непрерывный пример аппроксимации оператора с метрикой ;
- проверка генерализации по длине: обучение на , тест на ;
- абляции по типу позиций, числу голов, глубине, размеру FFN (графики ошибки и устойчивости);
- обсуждение: роль позиционных кодировок, ограничения экспериментов, выводы.
- Исходники отчёта:
.tex(+.bib, если используется biblatex), а также все рисунки/таблицы, использованные в PDF. - Репозиторий с кодом, обеспечивающий воспроизводимость:
requirements.txt(илиenvironment.yml);- единый скрипт запуска экспериментов (
run_all.pyили эквивалентный); READMEс инструкцией запуска и указанием фиксированных seed;- сохранение результатов (графики, таблицы, конфиги) в отдельную папку (
results/илиout/).
- Приложение (в отчёте или отдельным файлом): дополнительные графики/таблицы и/или листинги ключевых частей кода (генерация данных, обучение, сравнение типов позиционных кодов, оценка метрик).