インジェストでサポートされているデータ形式
データ インジェストは、テーブルにデータを追加し、クエリで使用できるようにするプロセスです。 ingest-from-query 以外のすべてのインジェスト方法では、データは、サポートされているいずれかの形式になっている必要があります。 次の表に、データ インジェストでサポートされる形式の一覧と説明を示します。
Note
データを取り込む前に、データが適切に書式設定され、必要なフィールドが定義されていることを確認してください。 形式が有効なであることを確かめるために、好みの検証ツールを使用することをお勧めします。 たとえば、CSV または JSON のファイルの検査には、次の検証ツールが役立ちます。
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
インジェストが失敗する理由の詳細については、「 Ingestion の失敗」を参照してください。
Azure Data Explorer でIngestion エラー コードをします。
形式 | 拡張機能 | 説明 |
---|---|---|
ApacheAvro | .avro |
論理型をサポートする AVRO 形式。 次の圧縮コーデックがサポートされています: null 、deflate 、snappy 。 apacheavro 形式のリーダー実装は、公式の apacheavro に基づいています。 Event Hub Capture Avro ファイルの取り込みの詳細については、Event Hub Capture Avro ファイルの取り込みに関するページを参照してください。 |
Avro | .avro |
.NET ライブラリに基づいた AVRO 形式のレガシ実装。 次の圧縮コーデックがサポートされています: null 、deflate 、(snappy については、ApacheAvro データ形式を使用します)。 |
CSV | .csv |
コンマ区切り値 (, ) を含むテキスト ファイル。 RFC 4180: コンマ区切り値 (CSV) ファイルの共通形式と MIME の種類に関するページを参照してください。 |
JSON | .json |
\n または \r\n で区切られた JSON オブジェクトを含むテキスト ファイル。 「JSON Lines (JSONL)」を参照してください。 |
MultiJSON | .multijson |
プロパティ バッグの JSON 配列 (それぞれレコードを表す)、または空白、\n または\r\n で区切られた任意の数のプロパティ バッグを含むテキスト ファイル。 各プロパティ バッグは、複数の行にまたがることができます |
ORC | .orc |
ORC ファイル。 |
Parquet | .parquet |
Parquet ファイル。 |
PSV | .psv |
パイプ区切り値を含むテキスト ファイル (| )。 |
RAW | .raw |
コンテンツ全体が 1 つの文字列値であるテキスト ファイル。 |
SCsv | .scsv |
セミコロン区切り値 (; ) を含むテキスト ファイル。 |
SOHsv | .sohsv |
SOH で区切られた値を含むテキスト ファイル。 (SOH は ASCII コードポイント 1 です。この形式は、HDInsight の Hive によって使用されます)。 |
TSV | .tsv |
タブ区切り値 (\t ) を含むテキスト ファイル。 |
TSVE | .tsv |
タブ区切り値 (\t ) を含むテキスト ファイル。 エスケープにはバックスラッシュ文字 (\ ) が使用されます。 |
TXT | .txt |
\n で区切られた行を含むテキスト ファイル。 空の行はスキップされます。 |
W3CLOGFILE | .log |
W3C によって規格化された Web ログ ファイルのフォーマットです。 |
Note
- 通常の Parquet 形式ファイル (Apache Iceberg、Apache Hudi、Delta Lake など) に加えて ACID 機能を提供するデータ ストレージ システムからの取り込みはサポートされていません。
- スキーマレス Avro はサポートされていません。
json
形式またはmultijson
形式を使用したデータの取り込みの詳細については、最も json 形式を参照してください。
サポートされているデータ圧縮形式
次のいずれかの圧縮アルゴリズムを使用して BLOB とファイルを圧縮できます。
圧縮 | 拡張機能 |
---|---|
gzip | .gz |
郵便番号 | .zip |
BLOB またはファイルの名前に拡張子を追加して、圧縮を示します。
次に例を示します。
MyData.csv.zip
は、ZIP (アーカイブまたは 1 つのファイル) で圧縮された、CSV 形式の BLOB またはファイルを示します。MyData.json.gz
は、Gzip で圧縮された JSON 形式の BLOB またはファイルを示します。
形式拡張子がなく圧縮のみが含まれている BLOB またはファイルの名前 (例: MyData.zip
) もサポートされています。 この場合、ファイル形式は推測されないため、インジェスト プロパティとして指定する必要があります。
注意
- 一部の圧縮形式では、元のファイル拡張子が圧縮ストリームの一部として追跡されます。 この拡張子は通常、ファイル形式の判別では無視されます。 (圧縮された) BLOB またはファイルの名前からファイル形式を判別できない場合は、
format
インジェスト プロパティを使用して指定する必要があります。 Parquet
、AVRO
、およびORC
形式で使用される内部 (チャンク レベル) 圧縮コーデックと混同しないようにしてください。 内部圧縮名は、通常、ファイル形式拡張子の前のファイル名に追加されます (例:file1.gz.parquet
、file1.snappy.avro
など)。- Deflate64/Enhanced Deflate zip 圧縮方法はサポートされていません。 Windows 組み込みの zip コンプレッサーでは、2 GB を超えるサイズのファイルに対してこの圧縮方法を使用する場合があることに注意してください。
関連するコンテンツ
- データ インジェストの詳細を確認する