รูปแบบข้อมูลที่ได้รับการสนับสนุนโดย Real-Time Intelligence
การนําเข้าข้อมูลคือกระบวนการที่ข้อมูลถูกเพิ่มไปยังตาราง และทําให้พร้อมใช้งานสําหรับคิวรีในตัวแสดงเวลาจริง สําหรับวิธีการนําเข้าทั้งหมด นอกเหนือจากการนําเข้าจากคิวรี ข้อมูลต้องอยู่ในรูปแบบที่ได้รับการสนับสนุนรูปแบบใดรูปแบบหนึ่ง ตารางต่อไปนี้แสดงรายการและอธิบายรูปแบบที่ตัวแสดงเวลาจริงสนับสนุนสําหรับการนําเข้าข้อมูล
หมายเหตุ
ก่อนที่คุณจะนําเข้าข้อมูล ตรวจสอบให้แน่ใจว่าข้อมูลของคุณได้รับการจัดรูปแบบอย่างถูกต้องและกําหนดเขตข้อมูลที่คาดหวัง เราขอแนะนําให้ใช้ตัวตรวจสอบที่คุณต้องการเพื่อยืนยันว่ารูปแบบถูกต้อง ตัวอย่างเช่น คุณอาจพบว่าตัวตรวจสอบต่อไปนี้มีประโยชน์ในการตรวจสอบไฟล์ CSV หรือ JSON:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับสาเหตุที่การนําเข้าข้อมูลอาจล้มเหลว โปรดดู ความล้มเหลวในการนําเข้า
รูปแบบ | ส่วนขยาย | คำอธิบาย |
---|---|---|
ApacheAvro | .avro |
รูปแบบ AVRO ที่มีการสนับสนุนสําหรับ ชนิดตรรกะ ตัวแปลงสัญญาณการบีบอัดต่อไปนี้ได้รับการสนับสนุน: null , deflate และsnappy การนํารูปแบบไปapacheavro ใช้ของผู้อ่านจะขึ้นอยู่กับไลบรารี Apache Avro อย่างเป็นทางการ สําหรับข้อมูลเกี่ยวกับการนําเข้าไฟล์ Event Hubs Capture Avro ดู การแมป Schema สําหรับไฟล์ Event Hubs Capture Avro |
Avro | .avro |
การใช้งานแบบดั้งเดิมสําหรับ รูปแบบ AVRO ที่ยึด ตามไลบรารี .NET ตัวแปลงสัญญาณการบีบอัดต่อไปนี้ได้รับการสนับสนุน: null , deflate (สําหรับ snappy - ใช้ ApacheAvro รูปแบบข้อมูล) |
CSV | .csv |
ไฟล์ข้อความที่มีค่าที่คั่นด้วยเครื่องหมายจุลภาค (, ) ดู ที่ RFC 4180: รูปแบบทั่วไปและประเภท MIME สําหรับไฟล์ค่าที่คั่นด้วยเครื่องหมายจุลภาค (CSV) |
JSON | .json |
ไฟล์ข้อความที่มีวัตถุ JSON ที่คั่นด้วย \n หรือ\r\n ดูสาย JSON (JSONL) |
MultiJSON | .multijson |
แฟ้มข้อความที่มีอาร์เรย์ JSON ของกระเป๋าคุณสมบัติ (แต่ละรายการแสดงถึงระเบียน) หรือจํานวนกระเป๋าคุณสมบัติที่คั่นด้วยช่องว่าง \n หรือ\r\n กระเป๋าคุณสมบัติแต่ละใบสามารถกระจายได้หลายบรรทัด รูปแบบนี้เป็นที่นิยมมากกว่า JSON เว้นแต่ว่าข้อมูลจะเป็นกระเป๋าที่ไม่เป็นคุณสมบัติ |
ORC | .orc |
ไฟล์ ORC |
Parquet | .parquet |
ไฟล์ Parquet |
PSV | .psv |
ไฟล์ข้อความที่มีค่าที่แบ่งไปป์ (| ) |
ดิบ | .raw |
ไฟล์ข้อความที่มีเนื้อหาทั้งหมดเป็นค่าสตริงเดียว |
SCsv | .scsv |
ไฟล์ข้อความที่มีค่าคั่นด้วยเครื่องหมายอัฒภาค (; ) |
SOHSV | .sohsv |
ไฟล์ข้อความที่มีค่าที่คั่นด้วย SOH (SOH คือรหัส ASCII 1 รูปแบบนี้ถูกใช้โดย Hive บน HDInsight) |
TSV | .tsv |
ไฟล์ข้อความที่มีค่าที่คั่นด้วยแท็บ (\t ) |
TSVE | .tsv |
ไฟล์ข้อความที่มีค่าที่คั่นด้วยแท็บ (\t ) อักขระเครื่องหมายทับขวา (\ ) ใช้สําหรับการละทิ้ง |
TXT | .txt |
ไฟล์ข้อความที่มีบรรทัดที่คั่นด้วย\n ข้ามบรรทัดที่ว่างเปล่า |
W3CLOGFILE | .log |
รูปแบบแฟ้ม บันทึกของเว็บที่กําหนดมาตรฐานโดย W3C |
หมายเหตุ
- ไม่รองรับการนําเข้าจากระบบจัดเก็บข้อมูลที่มีฟังก์ชันการทํางาน ACID ที่ด้านบนของไฟล์รูปแบบ Parquet ปกติ (เช่น Apache Iceberg, Apache Hudi)
- ไม่รองรับ Avro Schema-less
รูปแบบการบีบอัดข้อมูลที่ได้รับการสนับสนุน
Blobs และแฟ้มสามารถบีบอัดผ่านอัลกอริทึมการบีบอัดต่อไปนี้:
การบีบอัด | ส่วนขยาย |
---|---|
GZip | .gz |
รหัสไปรษณีย์ | .zip |
บ่งชี้การบีบอัด โดยการผนวกส่วนขยายเข้ากับชื่อของ blob หรือไฟล์
ตัวอย่างเช่น:
MyData.csv.zip
ระบุ blob หรือไฟล์ที่จัดรูปแบบเป็น CSV บีบอัดด้วย ZIP (เก็บถาวรหรือไฟล์เดียว)MyData.json.gz
ระบุ blob หรือไฟล์ที่จัดรูปแบบเป็น JSON ซึ่งบีบอัดด้วย GZip
ชื่อ Blob หรือชื่อไฟล์ที่ไม่มีส่วนขยายรูปแบบ แต่เพียงแค่การบีบอัด (ตัวอย่างเช่น MyData.zip
) ยังได้รับการสนับสนุนด้วย ในกรณีนี้ ต้องระบุรูปแบบไฟล์เป็นคุณสมบัติการนําเข้าเนื่องจากไม่สามารถอนุมานได้
หมายเหตุ
- รูปแบบการบีบอัดบางอย่างจะติดตามส่วนขยายของแฟ้มต้นฉบับซึ่งเป็นส่วนหนึ่งของสตรีมที่บีบอัด โดยทั่วไปส่วนขยายนี้จะถูกละเว้นสําหรับการกําหนดรูปแบบไฟล์ ถ้าไม่สามารถกําหนดรูปแบบไฟล์จาก blob (บีบอัด) หรือชื่อไฟล์ได้ ต้องระบุรูปแบบไฟล์ผ่าน
format
คุณสมบัติการนําเข้า - ไม่ควรสับสนกับตัวแปลงสัญญาณการบีบอัดภายใน (ระดับกลุ่ม) ที่ใช้โดย
Parquet
รูปแบบ และAVRO
ORC
โดยปกติชื่อการบีบอัดภายในจะถูกเพิ่มไปยังชื่อไฟล์ก่อนนามสกุลไฟล์ ตัวอย่างเช่น:file1.gz.parquet
,file1.snappy.avro
, ฯลฯ