Трансформеры как универсальные аппроксиматоры seq-to-seq

Материал из Машинное обучение - Кафедра прикладной кибернетики
Перейти к навигации Перейти к поиску

Курсовая работа (1–2 курс, «Прикладная математика, программирование и ИИ» )

Короткая мотивация

Классическая теорема универсальной аппроксимации известна для полносвязных сетей. Для трансформеров доказано, что (а) без позиционной информации они универсальны в классе непрерывных перестановочно-эквивариантных отображений «последовательность → последовательность», а (б) с позиционными кодировками (особенно обучаемыми) — универсальны для произвольных непрерывных seq-to-seq функций на компактах. Это связывает архитектурные компоненты (самовнимание, позиционные коды, FFN) с выразительной мощностью. Цель курсовой — аккуратно разобрать соответствующие теоремы и воспроизвести минимальные эксперименты, демонстрирующие практическую аппроксимируемость и роль позиции.

Постановка задачи (по пунктам)

  1. Конспект (5–10 стр.) по теории.
    • Кратко описать архитектуру энкодер–декодер Transformer (слои самовнимания, кросс-внимание, FFN, нормировки, остаточные связи).
    • Изложить результаты об универсальности: (i) универсальная аппроксимация непрерывных перестановочно-эквивариантных seq-to-seq функций; (ii) снятие ограничения эквивариантности при добавлении позиционных кодировок (особенно обучаемых).
    • Объяснить роль позиционных кодировок (абсолютные/относительные) и их влияние на выразительность.
    • Кратко упомянуть родственные результаты о вычислительной мощности (тюринговая полнота) и недавние оценки скоростей аппроксимации.
  2. Мини-теоретический результат (аккуратный пересказ/эскиз).
    • Сформулировать упрощённую версию теоремы: при наличии обучаемых позиционных кодировок класс трансформеров плотен в пространстве непрерывных отображений
    • на компакте (равномерная метрика).
    • Пояснить (на уровне эскиза), как самовнимание с позициями реализует «локальные базисные операторы», а FFN — нелинейное смешивание, обеспечивая универсальность.
  3. Практическая часть (Python; воспроизводимость).
    • Синтетические seq-to-seq задачи: копирование, реверс, фиксированная перестановка, скользящее среднее/свёртка, простая арифметика по символам. Сравнить: (A) без позиций, (B) синусоидальные позиции, (C) обучаемые позиции.
    • Непрерывный пример: аппроксимация оператора
    • (линейная фильтрация с нелинейной предобработкой ). Метрики: -ошибка, зависимость ошибки от числа слоёв/голов/скрытой ширины.
    • Генерализация по длине: тренировка на длинах , тест на (экстраполяция); сравнить разные позиции.
  4. Абляции (контрольные эксперименты).
    • Варьировать: тип позиционных кодировок (нет/синусоидальные/обучаемые/относительные), число голов внимания, глубину, размер FFN; фиксировать влияние на ошибку и устойчивость обучения.
  5. Репозиторий и оформление.
    • Репозиторий на Python/PyTorch: фиксированные seed, requirements.txt, скрипты генерации данных/обучения/графиков, ноутбуки для воспроизведения.
    • Итоговый отчёт обязательно набирается в LaTeX: мотивация и терминология, формулировки теорем (с ссылками), эскиз доказательства, дизайн экспериментов, результаты и обсуждение, ограничения, ссылка на репозиторий.

Минимальные пререквизиты

Линейная алгебра, основы математического анализа и теории вероятностей, базовый Python/PyTorch. Курс по дифференциальным уравнениям не требуется.

Список литературы

  1. A. Vaswani, N. Shazeer, N. Parmar, et al. Attention Is All You Need. NeurIPS, 2017.
  2. C. Yun, S. Bhojanapalli, A. S. Rawat, S. Reddi, S. Kumar. Are Transformers Universal Approximators of Sequence-to-Sequence Functions? ICLR, 2020. (arXiv:1912.10077)
  3. J. Pérez, P. Marinković, J. S. Žnidarič, D. Bahdanau, Y. Bengio. Attention Is Turing Complete. JMLR, 22(75):1–64, 2021.
  4. S. Takakura, Y. Suzuki, T. Fukui, T. Miyato. Approximation and Estimation Ability of Transformers for Sequence-to-Sequence Functions. ICML, 2023.
  5. M. Wang, Y. Zhang, Y. Li, et al. Understanding the Expressive Power and Mechanisms of Transformers: Approximation Rates and Beyond. NeurIPS, 2024.

Ожидаемый результат

  1. Отчёт (PDF), набранный в LaTeX (20–30 страниц без приложений), содержащий:
    • краткий конспект по теории трансформеров и результатов об универсальной аппроксимации (перестановочная эквивариантность без позиций; универсальность при добавлении позиционных кодировок);
    • формулировки ключевых теорем с корректными предположениями и ссылками на источники;
    • мини-теоретическую часть: аккуратный пересказ/эскиз доказательства упрощённой теоремы плотности для (равномерная метрика);
    • экспериментальную часть:
      • синтетические seq-to-seq задачи (копирование/реверс/перестановка/свёртка/арифметика), сравнение (A) без позиций, (B) синусоидальные, (C) обучаемые;
      • непрерывный пример аппроксимации оператора с метрикой ;
      • проверка генерализации по длине: обучение на , тест на ;
      • абляции по типу позиций, числу голов, глубине, размеру FFN (графики ошибки и устойчивости);
    • обсуждение: роль позиционных кодировок, ограничения экспериментов, выводы.
  2. Исходники отчёта: .tex (+ .bib, если используется biblatex), а также все рисунки/таблицы, использованные в PDF.
  3. Репозиторий с кодом, обеспечивающий воспроизводимость:
    • requirements.txt (или environment.yml);
    • единый скрипт запуска экспериментов (run_all.py или эквивалентный);
    • README с инструкцией запуска и указанием фиксированных seed;
    • сохранение результатов (графики, таблицы, конфиги) в отдельную папку (results/ или out/).
  4. Приложение (в отчёте или отдельным файлом): дополнительные графики/таблицы и/или листинги ключевых частей кода (генерация данных, обучение, сравнение типов позиционных кодов, оценка метрик).

Научный руководитель

ФИО: Мокаев Тимур Назирович [e-mail][Telegram]