Форматы данных, поддерживаемые в Azure Synapse Data Explorer для приема (предварительная версия)

Статья
06/15/2023

Приемом данных называется процесс, при котором данные добавляются в таблицу и становятся доступными для запросов в Data Explorer. Для всех методов приема, кроме приема по запросу, данные необходимо преобразовать в один из поддерживаемых форматов. В следующей таблице перечислены и описаны форматы, которые служба Data Explorer поддерживает для приема данных.

Примечание.

Перед приемом данных убедитесь, что данные правильно отформатированы и определяют ожидаемые поля. Для подтверждения допустимости формата рекомендуется использовать предпочтительный проверяющий элемент управления. Например, следующие проверяющие элементы управления могут пригодиться для проверки файлов CSV или JSON:

CSV: http://csvlint.io/
JSON: https://jsonlint.com/

Дополнительные сведения о том, почему может произойти сбой приема, см. в разделе Сбои приема и Коды ошибок приема в Data Explorer.

Формат	Расширение	Description
ApacheAvro	`.avro`	Формат AVRO с поддержкой логических типов. Сейчас поддерживаются перечисленные ниже кодеки: `null`, `deflate` и `snappy`. Реализация модуля чтения в формате `apacheavro` основана на официальной библиотеке Apache Avro.
Avro	`.avro`	Устаревшая реализация для формата AVRO на основе библиотеки .NET. Сейчас поддерживаются перечисленные ниже кодеки: `null`, `deflate` (для `snappy` — используйте формат данных `ApacheAvro`).
CSV	`.csv`	Текстовый файл, содержащий значения с разделителями-запятыми (`,`). См. RFC 4180: Общий формат и тип MIME для файлов в формате значений, разделенных запятой (CSV).
JSON	`.json`	Текстовый файл с объектами JSON, разделенными символами `\n` или `\r\n`. См. описание JSON Lines (JSONL).
MultiJSON	`.multijson`	Текстовый файл с массивом JSON, содержащим контейнеры свойств (каждый из которых представляет запись), или любым количеством контейнеров свойств, разделенных пробелами (`\n` или `\r\n`). Каждый контейнер свойств может распределяться по нескольким строкам Этот формат предпочтительнее `JSON`, если данные не состоят из контейнеров, отличных от контейнеров свойств.
ORC	`.orc`	Файл ORC.
Parquet	`.parquet`	Файл Parquet.
PSV	`.psv`	Текстовый файл, содержащий значения, разделенные символами вертикальной черты (`\|`).
НЕОБРАБОТАННЫЕ	`.raw`	Текстовый файл, все содержимое которого является одним строковым значением.
SCsv	`.scsv`	Текстовый файл, содержащий значения, разделенные символами точки с запятой (`;`).
SOHsv	`.sohsv`	Текстовый файл, содержащий значения, разделенные символами начала заголовка. (Символ начала заголовка является кодовой точкой ASCII 1; этот формат используется для Hive в HDInsight.)
TSV	`.tsv`	Текстовый файл, содержащий значения, разделенные символами табуляции (`\t`).
TSVE	`.tsv`	Текстовый файл, содержащий значения, разделенные символами табуляции (`\t`). Для экранирования используется символ обратной косой черты (`\`).
TXT	`.txt`	Текстовый файл, строки в котором разделены символами `\n`. Пустые строки пропускаются.
W3CLOGFILE	`.log`	Формат файла веб-журнала, стандартизированный W3C.

Поддерживаемые форматы сжатия данных

BLOB-объекты и файлы можно при желании сжать с помощью любого из следующих алгоритмов:

Сжатие	Расширение
GZip	.gz
Почтовый индекс	.zip

Укажите сжатие, добавив расширение в имя BLOB-объекта или файла.

Например:

MyData.csv.zip указывает BLOB-объект или файл в формате CSV, сжатый с помощью ZIP (архив или отдельный файл)
MyData.json.gz указывает BLOB-объект или файл в формате JSON, сжатый с помощью GZip.

Также поддерживаются имена BLOB-объектов или файлов, которые не включают расширение формата, а только указывают на сжатие (например, MyData.zip). В этом случае формат файла нужно указать как свойство приема, так как его нельзя определить.

Примечание.

Некоторые форматы сжатия сохраняют исходное расширение файла в потоке сжатых данных. Эти сведения о расширении обычно игнорируются при определении формата файла. Если формат файла нельзя определить по имени сжатого большого двоичного объекта или файла, его нужно указать в свойстве приема format.
Не следует путать с внутренним кодеком сжатия (на уровне блоков), который используется в форматах Parquet, AVRO и ORC. Внутреннее имя сжатия обычно добавляется к имени файла перед расширением формата файла, например: file1.gz.parquet, file1.snappy.avro и т. д.

Следующие шаги

Узнайте дополнительные сведения о приеме данных
Узнайте больше о свойствах приема данных.

Поделиться через

Форматы данных, поддерживаемые в Azure Synapse Data Explorer для приема (предварительная версия)

Поддерживаемые форматы сжатия данных

Следующие шаги

Обратная связь

Дополнительные ресурсы