Поделиться через


Общие сведения о объектах рабочей области

В этой статье приведены общие сведения об объектах рабочей области Azure Databricks. Вы можете создавать, просматривать и упорядочивать объекты рабочей области в браузере рабочей области в разных пользователях.

Примечание о именовании ресурсов рабочей области

Полное имя ресурса рабочей области состоит из базового имени и расширения файла. Например, расширение файла записной книжки может быть .py, .sqlи .scala.r.ipynb в зависимости от языка и формата записной книжки.

При создании ресурса записной книжки его базовое имя и полное имя (базовое имя, сцепленное с расширением файла), должно быть уникальным в любой папке рабочей области. При именовании ресурса Databricks проверяет, соответствует ли он этому критерию, добавляя к нему расширение файла. Если полное имя соответствует существующему файлу в папке, это имя не разрешено и необходимо выбрать новое имя записной книжки. Например, если вы пытаетесь создать записную книжку Python (в исходном формате Python), именованную в той же папке, что и файл Python с именем testtest.py, он не будет разрешен.

Кластеры

Кластеры Azure Databricks Обработка и анализ данных и Databricks Mosaic AI предоставляют унифицированную платформу для различных вариантов использования, таких как запуск рабочих конвейеров ETL, потоковой аналитики, аналитики, аналитики нерегламентированного анализа и машинного обучения. Кластер — это разновидность вычислительных ресурсов Azure Databricks. К другим типам вычислительных ресурсов относятся, например, хранилища SQL Azure Databricks.

Подробные сведения об управлении и использовании кластеров см. в разделе "Вычисления".

Записные книжки

Записная книжка — это веб-интерфейс документов, содержащих ряд выполняемых ячеек (команд), которые работают с файлами, таблицами , визуализациями и текстом повествования. Команды можно выполнять последовательно, со ссылкой на выходные данные одной или нескольких ранее выполненных команд.

Записные книжки — это один из механизмов выполнения кода в Azure Databricks. Другой механизм — это задания.

Подробные сведения об управлении и использовании записных книжек см. в статье "Общие сведения о записных книжках Databricks".

Рабочих мест

Задания — это один из механизмов выполнения кода в Azure Databricks. Другой механизм — это записные книжки.

Подробные сведения об управлении заданиями и использовании см. в разделе "Планирование и оркестрация рабочих процессов".

Библиотеки

Библиотека делает сторонний или локальный код доступным для записных книжек и заданий, выполняемых в кластерах.

Подробные сведения об управлении библиотеками и их использовании см. в разделе Библиотеки.

Данные

Данные можно импортировать в распределенную файловую систему, подключенную к рабочей области Azure Databricks и работающую с ними в записных книжках и кластерах Azure Databricks. Для доступа к данным можно также использовать широкий спектр источников данных Apache Spark.

Подробные сведения о загрузке данных см. в разделе "Прием данных" в lakehouse Databricks.

Файлы

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

В Databricks Runtime 11.3 LTS и более поздних версиях можно создавать и использовать произвольные файлы в рабочей области Databricks. Файлы могут быть любым типом файла. Ниже приведены примеры распространенных типов файлов:

  • .py файлы, используемые в пользовательских модулях.
  • .md файлы, такие как README.md.
  • .csv или другие небольшие файлы данных.
  • Файлы .txt.
  • Файлы журнала.

Подробные сведения об использовании файлов см. в статье "Работа с файлами в Azure Databricks". Сведения об использовании файлов для модульного использования кода при разработке с помощью записных книжек Databricks см. в разделе "Общий доступ к коду между записными книжками Databricks"

Папки Git

Папки Git — это папки Azure Databricks, содержимое которых совместно версиями выполняется путем синхронизации их с удаленным репозиторием Git. С помощью папок Databricks Git вы можете разрабатывать записные книжки в Azure Databricks и использовать удаленный репозиторий Git для совместной работы и управления версиями.

Подробные сведения об использовании репозиториев см. в разделе интеграции Git для папок Databricks Git.

Модели

Понятие Модель здесь означает модель, зарегистрированную в реестре моделей MLflow. Реестр моделей — это централизованное хранилище моделей, которое позволяет управлять полным жизненным циклом моделей MLflow. Он предоставляет хронологию происхождения моделей, управление версиями моделей, переходы между стадиями, а также заметки и описания моделей и их версий.

Подробные сведения об управлении и использовании моделей см. в статье Управление жизненным циклом модели в каталоге Unity.

Эксперименты

Эксперимент MLflow — это основная единица организации и управления доступом для запусков по обучению моделей машинного обучения с использованием MLflow. Все запуски MLflow относятся к эксперименту. Каждый эксперимент позволяет визуализировать, искать и сравнивать прогоны, а также скачивать и запускать артефакты или метаданные для анализа в других инструментах.

Подробные сведения об управлении и использовании экспериментов см. в статье "Упорядочивание учебных запусков с помощью экспериментов MLflow".

Запросы

Запросы — это инструкции SQL, позволяющие взаимодействовать с данными. Дополнительные сведения см. в статье Access и управление сохраненными запросами.

Панели мониторинга

Панели мониторинга — это представления визуализаций запросов и комментарии. См . панели мониторинга или устаревшие панели мониторинга.

видны узлы

Оповещения — это уведомления о том, что для поля, возвращаемого запросом, достигнуто пороговое значение. Дополнительные сведения см. в статье "Что такое оповещения Sql Databricks?".

Ссылки на объекты рабочей области

Исторически пользователи должны были включать /Workspace префикс пути для некоторых API Databricks (%sh), но не для других (%runвходных данных REST API).

Пользователи могут использовать пути к рабочей области с /Workspace префиксом везде. Старые ссылки на пути без /Workspace префикса перенаправляются и продолжают работать. Рекомендуется, чтобы все пути к рабочей области носили /Workspace префикс, чтобы отличить их от путей тома и DBFS.

Предварительным условием для согласованного /Workspace поведения префикса пути является следующее: не может быть /Workspace папка на корневом уровне рабочей области. Если у вас есть /Workspace папка на корневом уровне и хотите включить это улучшение пользовательского интерфейса, удалите или переименуйте /Workspace созданную папку и обратитесь к группе учетной записи Azure Databricks.

Общий доступ к файлу, папке или URL-адресу записной книжки

В рабочей области Azure Databricks URL-адреса для файлов рабочих областей, записных книжек и папок находятся в форматах:

URL-адреса файлов рабочей области

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

URL-адреса записной книжки

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

URL-адреса папки (рабочая область и Git)

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

Эти ссылки могут прерываться, если любая папка, файл или записная книжка в текущем пути обновляется с помощью команды извлечения Git или удаляется и повторно создается с тем же именем. Однако можно создать ссылку на основе пути рабочей области для совместного использования с другими пользователями Databricks с соответствующими уровнями доступа, изменив ее на ссылку в этом формате:

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

Ссылки на папки, записные книжки и файлы можно предоставить, заменив все в URL-адресе после ?o=<16-digit-workspace-ID> пути к файлу, папке или записной книжке из корневого каталога рабочей области. Если вы предоставляете общий доступ к URL-адресу в папку, удалите /browse/folders/<16-digit-ID> из исходного URL-адреса.

Чтобы получить путь к файлу, откройте контекстное меню, щелкнув правой кнопкой мыши папку, записную книжку или файл в рабочей области, которую вы хотите предоставить, и выберите Копировать URL-адрес или путь>полный путь. #workspace Перед копируемым путем к файлу и добавьте полученную строку после ?o=<16-digit-workspace-ID> того, как она соответствует приведенному выше формату URL-адреса.

Выбор пути копирования URL-адреса, за которым следует полный путь из контекстного меню папки рабочей области.

Пример формулировки URL-адреса #1: URL-адреса папок

Чтобы поделиться URL-адресом папки рабочей области https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222, удалите подстроку browse/folders/1111111111111111 из URL-адреса. Добавьте #workspace путь к папке или объекту рабочей области, к которому вы хотите предоставить общий доступ.

В этом случае путь к рабочей области — к папке /Workspace/Users/user@example.com/team-git/notebooks. После копирования полного пути из рабочей области теперь можно создать общую ссылку:

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

Пример формулировки URL-адреса 2. URL-адреса записной книжки

Чтобы предоставить общий доступ к URL-адресу записной книжки https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333, удалите #notebook/2222222222222222/command/3333333333333333. Добавьте #workspace путь к папке или объекту рабочей области.

В этом случае путь рабочей области указывает на ноутбук, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook. После копирования полного пути из рабочей области теперь можно создать общую ссылку:

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

Теперь у вас есть стабильный URL-адрес для общего доступа к файлу, папке или записной книжке! Дополнительные сведения о URL-адресах и идентификаторах см. в разделе Получение идентификаторов для объектов рабочей области.