Методы поиска связанных данных в аналитическом хранилище

Материал из Машинное обучение - Кафедра прикладной кибернетики
Перейти к навигации Перейти к поиску

Задание

Обычно данные в аналитическом хранилище представлены в виде разрозненных таблиц или наборов файлов. Они могут располагаться на разных физических инстансах баз данных и файловых хранилищах. Предположим, что данные хранятся в Greenplum, Clickhouse и в виде файлов Parquet/Iceberg на файловом хранилище s3. Задача состоит в том, чтобы найти одинаковые по смыслу данные. Простой маппинг по имени колонки, чаще всего не помогает - колонки могут переименовывать. Задача состоит в том, чтобы научиться распознавать с какой-то долей достоверности, что 2 колонки в разных таблицах хранят данные об одном и том же, и могу быть использованы для соединения этих таблиц. 2 часть задачи: построить картину связей между данными в аналитическом хранилище в виде графа, предварительно не зная ничего о его структуре.

  1. Провести обзор литературы по тематике
  2. Реализовать существующие алгоритмы/попробвать воспользоваться моделями

№ Привести пример реализации на конкретном примере.

Научный руководитель

ФИО: Благов Михаил Валерьевич [e-mail][Telegram]