Загрузка данных с помощью внешнего местоположения каталога Unity
Внимание
Эта функция предоставляется в режиме общедоступной предварительной версии.
В этой статье описывается, как использовать пользовательский интерфейс добавления данных для создания управляемой таблицы из данных в Azure Data Lake Storage 2-го поколения с помощью внешнего расположения каталога Unity. Внешнее расположение — это объект, в котором путь к облачному хранилищу объединен с учетными данными хранилища, обеспечивающими доступ к этому пути к облачному хранилищу.
Подготовка к работе
Перед началом работы убедитесь, что у вас есть такие компоненты.
- Рабочая область с активированным Unity Catalog. Для получения дополнительной информации см. Настройка и управление Unity Catalog.
- Привилегия
READ FILES
во внешнем расположении. Дополнительные сведения см. в статье "Создание внешнего расположения для подключения облачного хранилища к Azure Databricks". - Привилегия
CREATE TABLE
на схему, в которой вы хотите создать управляемую таблицу, привилегияUSE SCHEMA
на схему и привилегияUSE CATALOG
на родительский каталог. Для получения дополнительной информации см. раздел о привилегиях каталога Unity и защищаемых объектах.
Типы файлов
Следующие типы файлов не поддерживаются:
- CSV
- TSV
- JSON
- XML
- AVRO;
- Parquet
Шаг 1. Подтверждение доступа к внешнему расположению
Чтобы подтвердить доступ к внешнему расположению, сделайте следующее:
- На боковой панели рабочей области Azure Databricks щелкните Каталог.
- В обозревателе каталогов щелкните Внешние данные>Внешние расположения.
шаг 2. Создание управляемой таблицы
Чтобы создать управляемую таблицу, сделайте следующее:
На боковой панели рабочей области нажмите кнопку +Создать>данные.
В пользовательском интерфейсе добавления данных щелкните Azure Data Lake Storage.
Выберите внешнее расположение из раскрывающегося списка.
Выберите папки и файлы, которые нужно загрузить в Azure Databricks, а затем щелкните предварительный просмотр таблицы.
Выберите каталог и схему из раскрывающихся списков.
(Необязательно) Измените имя таблицы.
(Необязательно) Чтобы задать параметры расширенного формата по типу файла, щелкните Расширенные атрибуты, отключите автоматическое определение типа файла, а затем выберите тип файла.
Список параметров формата см. в следующем разделе.
(Необязательно) Чтобы изменить имя столбца, щелкните поле ввода в верхней части столбца.
Имена столбцов не поддерживают запятые, обратные очки или символы юникода (например, эмодзи).
(Необязательно) Чтобы изменить типы столбцов, щелкните значок с типом.
Щелкните Создать таблицу.
Параметры форматирования типа файла
Доступны следующие параметры формата в зависимости от типа файла:
Параметр форматирования | Description | Поддерживаемые типы файлов |
---|---|---|
Column delimiter |
Символ разделителя между столбцами. Допускается только один символ, обратная косая черта не поддерживается. По умолчанию используется запятая. |
CSV |
Escape character |
Escape-символ, используемый при анализе данных. По умолчанию используется кавычка. |
CSV |
First row contains the header |
Этот параметр указывает, содержит ли файл заголовок. Включено по умолчанию. |
CSV |
Automatically detect file type |
Автоматически определять тип файла. По умолчанию — true . |
XML |
Automatically detect column types |
Автоматически определять типы столбцов из содержимого файла. Типы можно изменить в таблице предварительного просмотра. Если для этого задано значение false, все типы столбцов выводятся как STRING. Включено по умолчанию. |
- CSV — JSON - XML |
Rows span multiple lines |
Может ли значение столбца охватывать несколько строк в файле. Выключено по умолчанию. |
- CSV — JSON |
Merge the schema across multiple files |
Следует ли определять схему на основе нескольких файлов и объединять схемы каждого файла. Включено по умолчанию. |
CSV |
Allow comments |
Разрешены ли комментарии в файле. Включено по умолчанию. |
JSON |
Allow single quotes |
Разрешены ли в файле одинарные кавычки. Включено по умолчанию. |
JSON |
Infer timestamp |
Следует ли пытаться определить строки метки времени как TimestampType .Включено по умолчанию. |
JSON |
Rescued data column |
Следует ли сохранять столбцы, которые не соответствуют схеме. Дополнительные сведения см. в разделе Что такое столбец спасенных данных?. Включено по умолчанию. |
- CSV — JSON - Avro -Паркет |
Exclude attribute |
Следует ли исключать атрибуты в элементах. По умолчанию — false . |
XML |
Attribute prefix |
Префикс атрибутов для отличия атрибутов и элементов. По умолчанию — _ . |
XML |
Типы данных столбца
Поддерживаются следующие типы данных столбцов. Дополнительные сведения о конкретных типах данных см. в разделе Типы данных SQL.
Тип данных | Description |
---|---|
BIGINT |
Восьмибайтовые целые числа со знаком. |
BOOLEAN |
Логические значения (true , false ) |
DATE |
и день без часового пояса. |
DECIMAL (P,S) |
Числа с максимальной точностью P и фиксированным масштабом S . |
DOUBLE |
Восьмибайтовые числа с плавающей запятой двойной точности. |
STRING |
Значения строк символов. |
TIMESTAMP |
Значения, содержащие значения полей года, месяца, дня, часа, минуты и секунды с локальным часовым поясом сеанса. |
Известные проблемы
- Могут возникнуть проблемы со специальными символами в сложных типах данных, таких как объект JSON с ключом, содержащим обратную черту или двоеточие.
- Для некоторых JSON-файлов может потребоваться вручную выбрать JSON для типа файла. Чтобы вручную выбрать тип файла после выбора файлов, щелкните Расширенные атрибуты, отключите автоматическое определение типа файла, а затем выберите JSON.
- Вложенные метки времени и десятичные знаки внутри сложных типов могут столкнуться с проблемами.