Анализ данных с помощью Apache Spark

Материал из Машинное обучение - Кафедра прикладной кибернетики
Перейти к навигации Перейти к поиску

Задача

Скачать предлагаемый датасет

Скачать и установить Apache Spark последней версии

При помощи фреймворка вычислить метрики:

  1. Самый популярный фильм по жанру в каждом году
  2. Режиссёр, снявший наибольшее количество фильмов
  3. Средний заработок фильмов по годам

Результаты вывести в csv файл

Примерная структура отчета

  1. Титульный лист
  2. Введение
  3. Обзор фреймворка Apache Spark и литературы про него
  4. Описание решения задачи
  5. Заключение
  6. Список литературы
  7. Приложения (здесь полный код программы)

Список ресурсов

Датасет

Научный руководитель

к.ф.-м.н., Ph.D., старший преподаватель, Благов Михаил Валерьевич [e-mail][Telegram]