Поделиться через


Рекомендации по файлам в томах и файлах рабочей области

При отправке или сохранении данных или файлов в Azure Databricks можно сохранить эти файлы с помощью томов каталога Unity или файлов рабочей области. В этой статье содержатся рекомендации и требования к использованию этих расположений. Дополнительные сведения о томах и файлах рабочей области см. в разделе "Что такое тома каталога Unity" и "Что такое файлы рабочих областей?".

Databricks рекомендует использовать тома Unity Catalog для хранения данных, библиотек и артефактов. Храните записные книжки, запросы SQL и файлы кода в виде файлов рабочей области. Каталоги файлов рабочей области можно настроить как папки Git для синхронизации с удаленными репозиториями Git. См. Интеграцию с Git для папок Databricks Git. Небольшие файлы данных, используемые для тестовых сценариев, также могут храниться в виде файлов рабочей области.

В таблицах ниже приведены конкретные рекомендации по файлам в зависимости от типа файла или потребностей в функциях.

Внимание

Файловая система Databricks (DBFS) также доступна для хранилища файлов, но не рекомендуется, так как у всех пользователей рабочей области есть доступ к файлам в DBFS. См. DBFS.

Типы файлов

В следующей таблице приведены рекомендации по хранилищу для типов файлов. Databricks поддерживает множество форматов файлов за пределами того, что предоставляется в этой таблице в качестве примеров.

Тип файла Рекомендация
Объекты Databricks, такие как блокноты и запросы Хранить как файлы рабочей области
Структурированные файлы данных, такие как файлы Parquet и файлы ORC Хранение в томах Unity Catalog
Полуструктурированные файлы данных, такие как текстовые файлы (.csv, .txt) и JSON-файлы (.json) Хранение томов каталога Unity
Неструктурированные файлы данных, такие как файлы изображений (.png, ), .svgаудиофайлы (.mp3) и файлы документов (.pdf, .docx) Хранение в томах Unity Catalog
Необработанные файлы данных, используемые для отложенного или раннего изучения данных Храните в томах каталога Unity
Операционные данные, такие как файлы журналов Сохранение в томах каталога Unity
Большие архивные файлы, такие как ZIP-файлы (.zip) Сохранять в томах каталога Unity
Файлы исходного кода, такие как файлы Python (), файлы Java (.py.java) и Scala files (.scala) Храните в качестве файлов рабочей области, если применимо, с другими связанными объектами, такими как записные книжки и запросы.
Databricks рекомендует управлять этими файлами в папке Git для управления версиями и отслеживания изменений этих файлов.
Создание артефактов и библиотек, таких как колеса Python (.whl) и JAR-файлы (.jar) Хранение томов в Unity Catalog.
Файлы конфигурации Сохраните файлы конфигурации, необходимые для рабочих областей в томах каталога Unity, но сохраните их в виде файлов рабочей области, если они являются файлами проекта в папке Git.

Сравнение функций

В следующей таблице сравниваются функции файлов рабочей области и томов каталога Unity.

Функция Файлы рабочей области Тома каталога Unity
Доступ к файлам Файлы рабочей области доступны только друг другу в одной рабочей области. Файлы доступны глобально в разных рабочих областях.
Программный доступ Доступ к файлам можно получить с помощью:
Доступ к файлам можно получить с помощью:
Пакеты активов Databricks По умолчанию все файлы в пакете, в том числе библиотеки и объекты Databricks, такие как записные книжки и запросы, развертываются безопасно в виде файлов рабочей области. Разрешения определяются в конфигурации пакета. Пакеты можно настроить для включения библиотек, уже имеющихся в томах, если библиотеки превышают предел размера файлов рабочей области. См. зависимости библиотек пакета ресурсов Databricks.
Уровень разрешений файла Разрешения находятся на уровне папки Git, если файл находится в папке Git, в противном случае разрешения задаются на уровне файла. Разрешения задаются на уровне тома.
Управление разрешениями Разрешениями управляют списки управления доступом (ACL) рабочей области и они ограничены рабочей областью, в которой находятся. Метаданные и разрешения управляются каталогом Unity. Эти разрешения применимы во всех рабочих областях, имеющих доступ к каталогу.
Подключение внешнего хранилища Не поддерживает подключение внешнего хранилища Предоставляет возможность указывать на существующие наборы данных во внешнем хранилище путем создания внешнего тома. См. раздел "Что такое тома каталога Unity?".
Поддержка UDF Не поддерживается Запись из определяемых пользователем файлов поддерживается с помощью томов FUSE
Размер файла Храните небольшие файлы менее 500 МБ, например файлы исходного кода (.py, .md, ), .ymlнеобходимые вместе с записными книжками. Храните очень большие файлы данных в ограничениях, определенных поставщиками облачных служб.
Отправка и скачивание Поддержка отправки и скачивания до 10 МБ. Поддержка отправки и скачивания до 5 ГБ.
Поддержка создания таблиц Таблицы нельзя создавать, используя файлы рабочей области в качестве места расположения. Таблицы можно создавать из файлов в томах с помощью COPY INTO, Autoloader или других методов, описанных в интеграции данных вAzure Databricks Lakehouse.
Структура каталогов и пути к файлам Файлы организованы в вложенных каталогах, каждая из которых имеет собственную модель разрешений:
  • Каталоги домашних пользователей, по одному для каждого пользователя и субъекта-службы в рабочей области
  • Папки Git
  • Общее
Файлы организованы в вложенных каталогах внутри тома
Узнайте, как получить доступ к данным в каталоге Unity?
Журнал файлов Используйте папку Git в рабочих областях для отслеживания изменений файлов. Доступны журналы аудита.