Обнаружение данных
Azure Databricks предоставляет набор средств и продуктов, упрощающих обнаружение ресурсов данных, доступных через платформу Databricks Data Intelligence. В этой статье представлен обзор того, как можно обнаруживать и просматривать данные, которые уже настроены для доступа в рабочей области.
- Сведения о подключении к источникам данных см. в разделе "Подключение к источникам данных".
- Сведения о получении доступа к данным в Databricks Marketplace см. в статье "Что такое Databricks Marketplace?".
В этом разделе рассматриваются объекты данных и файлы данных. Если вы ищете сведения о работе с ресурсами, такими как записные книжки, запросы SQL, библиотеки и модели, см . статью "Навигация по рабочей области".
Если вы ищете рекомендации по созданию сводной статистики для наборов данных или других задач, связанных с анализом аналитических данных (EDA), ознакомьтесь с аналитическим анализом данных в Azure Databricks: сервис и методы.
Как обнаружить ресурсы данных?
Средства обнаружения данных в Azure Databricks делятся на следующие общие категории:
- Аналитические сведения, сводка и поиск с помощью ИИ.
- Поиск по ключевому слову.
- Catalog исследование с использованием пользовательского интерфейса.
- Программное описание и исследование метаданных.
Средства для обнаружения данных оптимизированы для данных, которые управляются Unity Catalog. Ресурсы данных, которые не были зарегистрированы как объекты Unity Catalog, могут быть недоступны для обнаружения с помощью некоторых из этих подходов.
Поиск данных с помощью пользовательского интерфейса
Catalog Explorer предоставляет средства для изучения и управления ресурсами данных. Вы обращаетесь к Catalog Explorer с помощью значка Catalog на боковой панели рабочей области. См. Что такое обозреватель Catalog?.
Ноутбуки и редактор SQL-запросов также предоставляют навигатор catalog для изучения объектов базы данных. Щелкните значок Catalog в этих интерфейсах, чтобы развернуть или свернуть catalog навигатор, не выходя из редактора кода.
После обнаружения интересующего набора данных можно использовать вкладку "Аналитика ", чтобы узнать, как данные используются в рабочей области. См. статью . Частые запросы и пользователи table.
Программное изучение данных
Для обнаружения ресурсов, зарегистрированных в Unity Catalog, можно использовать команду SHOW
для всех объектов базы данных. Используйте команду LIST
, магическую команду %fs
или служебные программы Databricks для list файлов.
Ознакомьтесь со сведениями о хранилище и поиске файлов данных и поиске объектов базы данных.
Просмотр комментариев к данным
Вы можете просмотреть комментарии, чтобы узнать о содержимом наборов данных, доступных в lakehouse. Примечания могут быть set для объектов данных, включая catalogs, схемы, tablesи columns. Комментарии можно просмотреть в обозревателе Catalog или с помощью команды DESCRIBE
для объекта.
Catalog Explorer может предоставлять созданные ИИ комментарии для tables, что упрощает владельцам данных активов создание детального обзора наборов данных. См. раздел Добавление комментариев, созданных ИИ, в объекты Unity Catalog.
Пользователи также могут предоставлять комментарии по tables и другим объектам базы данных с помощью markdown, который отображается в обозревателе Catalog. См. раздел "Добавление комментариев к данным и ресурсам ИИ".
Поиск tables в озерном доме
Панель поиска в Azure Databricks можно использовать для нахождения tables, зарегистрированных в Unity Catalog. Вы можете выполнить поиск по ключевым словам или использовать семантический поиск для поиска наборов данных или columns, связанных с запросом поиска. Поиск возвращает только результаты для tables, на просмотр которых у вас есть разрешение. Поиск отзывов с table и column именами, а также table и column комментариями. См. статью "Поиск объектов рабочей области".