Поделиться через


Обнаружение данных

Azure Databricks предоставляет набор средств и продуктов, упрощающих обнаружение ресурсов данных, доступных через платформу Databricks Data Intelligence. В этой статье представлен обзор того, как можно обнаруживать и просматривать данные, которые уже настроены для доступа в рабочей области.

В этом разделе рассматриваются объекты данных и файлы данных. Если вы ищете сведения о работе с ресурсами, такими как записные книжки, запросы SQL, библиотеки и модели, см . статью "Навигация по рабочей области".

Если вы ищете рекомендации по созданию сводной статистики для наборов данных или других задач, связанных с анализом аналитических данных (EDA), ознакомьтесь с аналитическим анализом данных в Azure Databricks: сервис и методы.

Как обнаружить ресурсы данных?

Средства обнаружения данных в Azure Databricks делятся на следующие общие категории:

  • Аналитические сведения, сводка и поиск с помощью ИИ.
  • Поиск по ключевому слову.
  • Catalog исследование с использованием пользовательского интерфейса.
  • Программное описание и исследование метаданных.

Средства для обнаружения данных оптимизированы для данных, которые управляются Unity Catalog. Ресурсы данных, которые не были зарегистрированы как объекты Unity Catalog, могут быть недоступны для обнаружения с помощью некоторых из этих подходов.

Поиск данных с помощью пользовательского интерфейса

Catalog Explorer предоставляет средства для изучения и управления ресурсами данных. Вы обращаетесь к Catalog Explorer с помощью значка CatalogCatalog на боковой панели рабочей области. См. Что такое обозреватель Catalog?.

Ноутбуки и редактор SQL-запросов также предоставляют навигатор catalog для изучения объектов базы данных. Щелкните значок Catalog в этих интерфейсах, чтобы развернуть или свернуть catalog навигатор, не выходя из редактора кода.

После обнаружения интересующего набора данных можно использовать вкладку "Аналитика ", чтобы узнать, как данные используются в рабочей области. См. статью . Частые запросы и пользователи table.

Программное изучение данных

Для обнаружения ресурсов, зарегистрированных в Unity Catalog, можно использовать команду SHOW для всех объектов базы данных. Используйте команду LIST, магическую команду %fs или служебные программы Databricks для list файлов.

Ознакомьтесь со сведениями о хранилище и поиске файлов данных и поиске объектов базы данных.

Просмотр комментариев к данным

Вы можете просмотреть комментарии, чтобы узнать о содержимом наборов данных, доступных в lakehouse. Примечания могут быть set для объектов данных, включая catalogs, схемы, tablesи columns. Комментарии можно просмотреть в обозревателе Catalog или с помощью команды DESCRIBE для объекта.

Catalog Explorer может предоставлять созданные ИИ комментарии для tables, что упрощает владельцам данных активов создание детального обзора наборов данных. См. раздел Добавление комментариев, созданных ИИ, в объекты Unity Catalog.

Пользователи также могут предоставлять комментарии по tables и другим объектам базы данных с помощью markdown, который отображается в обозревателе Catalog. См. раздел "Добавление комментариев к данным и ресурсам ИИ".

Поиск tables в озерном доме

Панель поиска в Azure Databricks можно использовать для нахождения tables, зарегистрированных в Unity Catalog. Вы можете выполнить поиск по ключевым словам или использовать семантический поиск для поиска наборов данных или columns, связанных с запросом поиска. Поиск возвращает только результаты для tables, на просмотр которых у вас есть разрешение. Поиск отзывов с table и column именами, а также table и column комментариями. См. статью "Поиск объектов рабочей области".