Информационное бутылочное горлышко и динамика обучения бинарных нейросетей
Короткая мотивация
Бинарные нейронные сети (BNN) — модели, в которых и веса, и активации принимают значения из , — важны для компактных и энергоэффективных решений. Однако их обучение затруднено (разрывная -активация, специальные трюки обратного распространения), а динамика обучения остаётся менее изученной. Работа Raj–Nayak–Kalyani (2020) рассматривает BNN через принцип информационного бутылочного горлышка (Information Bottleneck, IB) и показывает, что в информационной плоскости снижение эмпирического риска и «сжатие представлений» идут одновременно, в отличие от классических наблюдений для полноточных DNN. Цель курсовой — аккуратно разобрать эти результаты, воспроизвести ключевые эксперименты и проверить устойчивость выводов на синтетике и MNIST.
Постановка задачи (по пунктам)
- Короткий конспект (4–6 стр.) с проверенной терминологией.
- Определить бинарную нейросеть (BNN), взаимную информацию , информационную плоскость , эмпирическое минимизирование риска (ERM) и сжатие представлений.
- Строго сформулировать принцип IB: задача , а также неравенство обработки данных (DPI).
- Описать практику обучения BNN: STE (оцениватель прямого пропускания), approx-sign, swish-sign, роль BatchNorm.
- Репликация «информационной плоскости» (synthetic + MNIST).
- Реализовать полносвязные BNN с тремя вариантами бинарных активаторов (STE, approx-sign, swish-sign).
- Оценивать и для слоёв по эпохам (допустимо простое биннирование для BNN-активаций и softmax-выхода).
- Воссоздать ключевое наблюдение: отсутствие явной «второй фазы» сжатия и совместный рост при низком .
- Сравнение с полноточной DNN (базовый контроль).
- Обучить небольшую DNN (tanh / hard-tanh / ReLU) и построить её траектории в информационной плоскости.
- Сопоставить с классическими результатами: двухфазность (ERM → «compression») vs отсутствие явной второй фазы в BNN.
- Градиенты и переобучение.
- Замерять нормы и дисперсию градиентов по эпохам; показать, что в BNN высокодисперсная «диффузионная» фаза не обязательна для обобщения.
- Провести эксперимент с перемешанными метками (random labels) на MNIST: DNN склонна к запоминанию, BNN — нет; отразить это на информационной плоскости.
- BatchNorm: «цена» нормализации.
- Проверить эффект первого BatchNorm-слоя на (возможную потерю информации о метке на ранних слоях) и обсудить альтернативы (активационная регуляризация для BNN).
- (Опционально) Оптимизаторы и «латентные веса».
- Сравнить Adam/SGD с Bop (Binary Optimizer): влияет ли выбор оптимизатора на траектории в информационной плоскости и переобучение?
- Репозиторий и воспроизводимость.
- Подготовить чистый репозиторий (Python/PyTorch): README, фиксированные сиды,
requirements.txt, скрипты для построения всех рисунков.
- Подготовить чистый репозиторий (Python/PyTorch): README, фиксированные сиды,
Минимальные пререквизиты
Линейная алгебра (вектора/матрицы), основы теории вероятностей (энтропия, взаимная информация на уровне определений), Python/NumPy/PyTorch. Спецкурс по дифференциальным уравнениям не требуется.
Требования к оформлению
Итоговый отчёт обязательно набрать в LaTeX (класс article, библиография через biblatex/natbib). В отчёт включить: введение и мотивацию, аккуратные определения, описание экспериментов, графики «информационных плоскостей» и метрик, обсуждение ограничений и угроз валидности, ссылку на репозиторий. :contentReference[oaicite:10]{index=10}
Литература
- V. Raj, N. Nayak, S. Kalyani. Understanding Learning Dynamics of Binary Neural Networks via Information Bottleneck. arXiv:2006.07522, 2020.
- N. Tishby, F. Pereira, W. Bialek. The Information Bottleneck Method. 1999/2000 (arXiv:physics/0004057).
- R. Shwartz-Ziv, N. Tishby. Opening the Black Box of Deep Neural Networks via Information. arXiv:1703.00810, 2017.
- A. M. Saxe et al. On the Information Bottleneck Theory of Deep Learning. J. Stat. Mech., 2019.
- M. Courbariaux et al. Binarized Neural Networks: Training DNNs with Weights and Activations in . arXiv:1602.02830, 2016.
- Z. Liu et al. Bi-Real Net: Enhancing the Performance of 1-bit CNNs. ECCV, 2018.
- K. Helwegen et al. Latent Weights Do Not Exist: Rethinking Binarized NN Optimization (Bop). NeurIPS, 2019.
- T. M. Cover, J. A. Thomas. Elements of Information Theory. Wiley, 2nd ed., 2006.
- A. Kraskov, H. Stögbauer, P. Grassberger. Estimating Mutual Information. Phys. Rev. E, 2004.
Оценивание (ориентир)
Корректность терминологии и ссылок (20%), воспроизводимость кода и графиков (30%), качество экспериментов и анализа (30%), ясность визуализаций (10%), структура и стиль LaTeX-отчёта (10%).
Ожидаемый результат
- Отчёт (PDF), набранный в LaTeX (20–30 страниц без приложений), содержащий:
- введение и аккуратный конспект по IB и обучению BNN: определения , информационной плоскости , постановки , DPI; описание STE/approx-sign/swish-sign и роли BatchNorm;
- репликацию экспериментов для BNN (synthetic + MNIST): траектории по эпохам в информационной плоскости для нескольких слоёв и трёх вариантов бинарных активаторов, с описанием методики оценки взаимной информации (биннирование/оценка для дискретных активаций);
- контрольное сравнение с полноточной DNN (tanh/hard-tanh/ReLU) и сопоставление с «двухфазной» картиной (ERM → compression) из классических работ;
- эксперименты по градиентам и переобучению: нормы/дисперсии градиентов по эпохам; опыт с random labels на MNIST с отражением эффекта на информационной плоскости;
- анализ влияния BatchNorm (как минимум — первого слоя) на и обсуждение возможных альтернатив;
- (опционально) сравнение оптимизаторов Adam/SGD и Bop по траекториям в информационной плоскости и склонности к переобучению;
- обсуждение ограничений, угроз валидности и выводы.
- Исходники отчёта:
.tex(+.bib, если используется biblatex/natbib), а также все рисунки/таблицы, использованные в PDF. - Репозиторий с кодом, обеспечивающий воспроизводимость:
requirements.txt(илиenvironment.yml);- скрипты обучения BNN/DNN и построения всех графиков «информационной плоскости»;
READMEс инструкцией запуска и указанием фиксированных seed;- сохранение результатов (графики, таблицы, конфиги) в отдельную папку (
results/илиout/).
- Приложение (в отчёте или отдельным файлом): дополнительные траектории по слоям/активаторам, ablation’ы по BatchNorm/оптимизаторам и/или листинги ключевых частей кода (оценка , , построение информационной плоскости).