Информационное бутылочное горлышко и динамика обучения бинарных нейросетей

Материал из Машинное обучение - Кафедра прикладной кибернетики
Перейти к навигации Перейти к поиску

Короткая мотивация

Бинарные нейронные сети (BNN) — модели, в которых и веса, и активации принимают значения из , — важны для компактных и энергоэффективных решений. Однако их обучение затруднено (разрывная -активация, специальные трюки обратного распространения), а динамика обучения остаётся менее изученной. Работа Raj–Nayak–Kalyani (2020) рассматривает BNN через принцип информационного бутылочного горлышка (Information Bottleneck, IB) и показывает, что в информационной плоскости снижение эмпирического риска и «сжатие представлений» идут одновременно, в отличие от классических наблюдений для полноточных DNN. Цель курсовой — аккуратно разобрать эти результаты, воспроизвести ключевые эксперименты и проверить устойчивость выводов на синтетике и MNIST.

Постановка задачи (по пунктам)

  1. Короткий конспект (4–6 стр.) с проверенной терминологией.
    • Определить бинарную нейросеть (BNN), взаимную информацию , информационную плоскость , эмпирическое минимизирование риска (ERM) и сжатие представлений.
    • Строго сформулировать принцип IB: задача , а также неравенство обработки данных (DPI).
    • Описать практику обучения BNN: STE (оцениватель прямого пропускания), approx-sign, swish-sign, роль BatchNorm.
  2. Репликация «информационной плоскости» (synthetic + MNIST).
    • Реализовать полносвязные BNN с тремя вариантами бинарных активаторов (STE, approx-sign, swish-sign).
    • Оценивать и для слоёв по эпохам (допустимо простое биннирование для BNN-активаций и softmax-выхода).
    • Воссоздать ключевое наблюдение: отсутствие явной «второй фазы» сжатия и совместный рост при низком .
  3. Сравнение с полноточной DNN (базовый контроль).
    • Обучить небольшую DNN (tanh / hard-tanh / ReLU) и построить её траектории в информационной плоскости.
    • Сопоставить с классическими результатами: двухфазность (ERM → «compression») vs отсутствие явной второй фазы в BNN.
  4. Градиенты и переобучение.
    • Замерять нормы и дисперсию градиентов по эпохам; показать, что в BNN высокодисперсная «диффузионная» фаза не обязательна для обобщения.
    • Провести эксперимент с перемешанными метками (random labels) на MNIST: DNN склонна к запоминанию, BNN — нет; отразить это на информационной плоскости.
  5. BatchNorm: «цена» нормализации.
    • Проверить эффект первого BatchNorm-слоя на (возможную потерю информации о метке на ранних слоях) и обсудить альтернативы (активационная регуляризация для BNN).
  6. (Опционально) Оптимизаторы и «латентные веса».
    • Сравнить Adam/SGD с Bop (Binary Optimizer): влияет ли выбор оптимизатора на траектории в информационной плоскости и переобучение?
  7. Репозиторий и воспроизводимость.
    • Подготовить чистый репозиторий (Python/PyTorch): README, фиксированные сиды, requirements.txt, скрипты для построения всех рисунков.

Минимальные пререквизиты

Линейная алгебра (вектора/матрицы), основы теории вероятностей (энтропия, взаимная информация на уровне определений), Python/NumPy/PyTorch. Спецкурс по дифференциальным уравнениям не требуется.

Требования к оформлению

Итоговый отчёт обязательно набрать в LaTeX (класс article, библиография через biblatex/natbib). В отчёт включить: введение и мотивацию, аккуратные определения, описание экспериментов, графики «информационных плоскостей» и метрик, обсуждение ограничений и угроз валидности, ссылку на репозиторий. :contentReference[oaicite:10]{index=10}

Литература

  1. V. Raj, N. Nayak, S. Kalyani. Understanding Learning Dynamics of Binary Neural Networks via Information Bottleneck. arXiv:2006.07522, 2020.
  2. N. Tishby, F. Pereira, W. Bialek. The Information Bottleneck Method. 1999/2000 (arXiv:physics/0004057).
  3. R. Shwartz-Ziv, N. Tishby. Opening the Black Box of Deep Neural Networks via Information. arXiv:1703.00810, 2017.
  4. A. M. Saxe et al. On the Information Bottleneck Theory of Deep Learning. J. Stat. Mech., 2019.
  5. M. Courbariaux et al. Binarized Neural Networks: Training DNNs with Weights and Activations in . arXiv:1602.02830, 2016.
  6. Z. Liu et al. Bi-Real Net: Enhancing the Performance of 1-bit CNNs. ECCV, 2018.
  7. K. Helwegen et al. Latent Weights Do Not Exist: Rethinking Binarized NN Optimization (Bop). NeurIPS, 2019.
  8. T. M. Cover, J. A. Thomas. Elements of Information Theory. Wiley, 2nd ed., 2006.
  9. A. Kraskov, H. Stögbauer, P. Grassberger. Estimating Mutual Information. Phys. Rev. E, 2004.

Оценивание (ориентир)

Корректность терминологии и ссылок (20%), воспроизводимость кода и графиков (30%), качество экспериментов и анализа (30%), ясность визуализаций (10%), структура и стиль LaTeX-отчёта (10%).

Ожидаемый результат

  1. Отчёт (PDF), набранный в LaTeX (20–30 страниц без приложений), содержащий:
    • введение и аккуратный конспект по IB и обучению BNN: определения , информационной плоскости , постановки , DPI; описание STE/approx-sign/swish-sign и роли BatchNorm;
    • репликацию экспериментов для BNN (synthetic + MNIST): траектории по эпохам в информационной плоскости для нескольких слоёв и трёх вариантов бинарных активаторов, с описанием методики оценки взаимной информации (биннирование/оценка для дискретных активаций);
    • контрольное сравнение с полноточной DNN (tanh/hard-tanh/ReLU) и сопоставление с «двухфазной» картиной (ERM → compression) из классических работ;
    • эксперименты по градиентам и переобучению: нормы/дисперсии градиентов по эпохам; опыт с random labels на MNIST с отражением эффекта на информационной плоскости;
    • анализ влияния BatchNorm (как минимум — первого слоя) на и обсуждение возможных альтернатив;
    • (опционально) сравнение оптимизаторов Adam/SGD и Bop по траекториям в информационной плоскости и склонности к переобучению;
    • обсуждение ограничений, угроз валидности и выводы.
  2. Исходники отчёта: .tex (+ .bib, если используется biblatex/natbib), а также все рисунки/таблицы, использованные в PDF.
  3. Репозиторий с кодом, обеспечивающий воспроизводимость:
    • requirements.txt (или environment.yml);
    • скрипты обучения BNN/DNN и построения всех графиков «информационной плоскости»;
    • README с инструкцией запуска и указанием фиксированных seed;
    • сохранение результатов (графики, таблицы, конфиги) в отдельную папку (results/ или out/).
  4. Приложение (в отчёте или отдельным файлом): дополнительные траектории по слоям/активаторам, ablation’ы по BatchNorm/оптимизаторам и/или листинги ключевых частей кода (оценка , , построение информационной плоскости).

Научный руководитель

ФИО: Мокаев Тимур Назирович [e-mail][Telegram]