Как каталогизировать большие данные в каталоге данных Azure
Внимание
Azure Каталог данных была прекращена 15 мая 2024 г.
Для функций каталога данных используйте службу Microsoft Purview , которая обеспечивает унифицированное управление данными для всего пространства данных.
Введение
Каталог данных Microsoft Azure — это полностью управляемая облачная служба, выполняющая функции систем регистрации и обнаружения корпоративных источников данных. Это все о том, как помочь людям обнаруживать, понимать и использовать источники данных, а также помогать организациям получать больше ценности из существующих источников данных, включая большие данные.
Каталог данных Azure поддерживает регистрацию больших двоичных объектов и каталогов хранилища Azure, а также файлов и каталогов Hadoop HDFS. Эти источники данных являются частично структурированными, что обеспечивает большую гибкость. Однако это также означает, что для получения максимальной пользы от регистрации источников в каталоге данных Azure пользователям необходимо понимать и учитывать их структуру.
Каталоги как логические наборы данных
Наиболее общий подход к организации источников больших данных — использование каталогов в качестве логических наборов данных. Каталоги верхнего уровня определяют наборы данных, вложенные папки определяют разделы, а файлы в них хранят сами данные.
Пример такого подхода:
\vehicle_maintenance_events
\2013
\2014
\2015
\01
\2015-01-trailer01.csv
\2015-01-trailer92.csv
\2015-01-canister9635.csv
...
\location_tracking_events
\2013
...
В этом примере vehicle_maintenance_events и location_tracking_events представляют логические наборы данных. Каждая из этих папок содержит файлы данных, разделенные на вложенные папки по году и месяцу. Каждая из вложенных папок может содержать сотни и тысячи файлов.
В этом шаблоне регистрация отдельных файлов в Azure Каталог данных, вероятно, не имеет смысла. Вместо этого следует регистрировать каталоги, представляющие наборы данных, которые будут полезны пользователям, работающим с данными.
Справочные файлы данных
Другой подход представляет собой хранение справочных наборов данных в качестве отдельных файлов. Эти наборы данных могут рассматриваться как "небольшая" сторона больших данных и часто похожи на измерения в аналитической модели данных. Справочные файлы данных содержат записи, используемые в качестве контекста для основного массива файлов в хранилище больших данных.
Пример такого подхода:
\vehicles.csv
\maintenance_facilities.csv
\maintenance_types.csv
Специалисту по анализу и обработке данных, который работает с данными в каталогах со сложной структурой, данные в справочных файлах могут помочь получить более подробную информацию о сущностях, которые упоминаются в больших наборах данных только по имени или идентификатору.
В этом случае имеет смысл зарегистрировать в каталоге данных Azure отдельные справочные файлы данных. Каждый файл представляет набор данных и может быть аннотирован и обнаружен независимо от других файлов.
Альтернативные подходы
Шаблоны, описанные в предыдущих разделах, являются двумя возможными способами организации хранилища больших данных, но каждая реализация отличается. Независимо от структуры источников больших данных регистрировать в каталоге данных Azure следует те файлы и папки, представляющие наборы данных, которые будут полезны другим пользователям в организации. Регистрация всех файлов и папок может перегрузить каталог и затруднить поиск нужных данных.
Итоги
Регистрация источников данных в каталоге данных Azure упрощает их поиск и интерпретацию. Регистрация и аннотирование файлов и каталогов, содержащих большие объемы данных и представляющих логические наборы данных, помогают пользователям находить и использовать необходимую информацию в источниках больших данных.