Рекомендации по файлам в томах и файлах рабочей области
При отправке или сохранении данных или файлов в Azure Databricks можно сохранить эти файлы с помощью томов каталога Unity или файлов рабочей области. В этой статье содержатся рекомендации и требования к использованию этих расположений. Дополнительные сведения о томах и файлах рабочей области см. в разделе "Что такое тома каталога Unity" и "Что такое файлы рабочих областей?".
Databricks рекомендует использовать тома Unity Catalog для хранения данных, библиотек и артефактов. Храните записные книжки, запросы SQL и файлы кода в виде файлов рабочей области. Каталоги файлов рабочей области можно настроить как папки Git для синхронизации с удаленными репозиториями Git. См. Интеграцию с Git для папок Databricks Git. Небольшие файлы данных, используемые для тестовых сценариев, также могут храниться в виде файлов рабочей области.
В таблицах ниже приведены конкретные рекомендации по файлам в зависимости от типа файла или потребностей в функциях.
Внимание
Файловая система Databricks (DBFS) также доступна для хранилища файлов, но не рекомендуется, так как у всех пользователей рабочей области есть доступ к файлам в DBFS. См. DBFS.
Типы файлов
В следующей таблице приведены рекомендации по хранилищу для типов файлов. Databricks поддерживает множество форматов файлов за пределами того, что предоставляется в этой таблице в качестве примеров.
Сравнение функций
В следующей таблице сравниваются функции файлов рабочей области и томов каталога Unity.
Функция | Файлы рабочей области | Тома каталога Unity |
---|---|---|
Доступ к файлам | Файлы рабочей области доступны только друг другу в одной рабочей области. | Файлы доступны глобально в разных рабочих областях. |
Программный доступ | Доступ к файлам можно получить с помощью: |
Доступ к файлам можно получить с помощью: |
Пакеты активов Databricks | По умолчанию все файлы в пакете, в том числе библиотеки и объекты Databricks, такие как записные книжки и запросы, развертываются безопасно в виде файлов рабочей области. Разрешения определяются в конфигурации пакета. | Пакеты можно настроить для включения библиотек, уже имеющихся в томах, если библиотеки превышают предел размера файлов рабочей области. См. зависимости библиотек пакета ресурсов Databricks. |
Уровень разрешений файла | Разрешения находятся на уровне папки Git, если файл находится в папке Git, в противном случае разрешения задаются на уровне файла. | Разрешения задаются на уровне тома. |
Управление разрешениями | Разрешениями управляют списки управления доступом (ACL) рабочей области и они ограничены рабочей областью, в которой находятся. | Метаданные и разрешения управляются каталогом Unity. Эти разрешения применимы во всех рабочих областях, имеющих доступ к каталогу. |
Подключение внешнего хранилища | Не поддерживает подключение внешнего хранилища | Предоставляет возможность указывать на существующие наборы данных во внешнем хранилище путем создания внешнего тома. См. раздел "Что такое тома каталога Unity?". |
Поддержка UDF | Не поддерживается | Запись из определяемых пользователем файлов поддерживается с помощью томов FUSE |
Размер файла | Храните небольшие файлы менее 500 МБ, например файлы исходного кода (.py , .md , ), .yml необходимые вместе с записными книжками. |
Храните очень большие файлы данных в ограничениях, определенных поставщиками облачных служб. |
Отправка и скачивание | Поддержка отправки и скачивания до 10 МБ. | Поддержка отправки и скачивания до 5 ГБ. |
Поддержка создания таблиц | Таблицы нельзя создавать, используя файлы рабочей области в качестве места расположения. | Таблицы можно создавать из файлов в томах с помощью COPY INTO , Autoloader или других методов, описанных в интеграции данных вAzure Databricks Lakehouse. |
Структура каталогов и пути к файлам | Файлы организованы в вложенных каталогах, каждая из которых имеет собственную модель разрешений:
|
Файлы организованы в вложенных каталогах внутри тома Узнайте, как получить доступ к данным в каталоге Unity? |
Журнал файлов | Используйте папку Git в рабочих областях для отслеживания изменений файлов. | Доступны журналы аудита. |