Инструменты для управления эволюцией схемы данных

Материал из Машинное обучение - Кафедра прикладной кибернетики
Перейти к навигации Перейти к поиску

Задача

  1. Взять книжку Martin Kleppmann Designing Data-Intensive applications
    1. Прочитать главы про форматы данных (avro, parquet, csv)
    2. Прочитать про schema evolution
  2. Какие существуют на данном этапе инструменты (желательно openSource), которые позволяют
    1. валидировать совместимость схем данных
    2. искать несовместимые схемы в существующих директориях
      1. находить и исправлять проблемные файлы