แชร์ผ่าน


การนําเข้าข้อมูลลงในคลังสินค้า

นําไปใช้กับ:✅ Warehouse ใน Microsoft Fabric

Warehouse in Microsoft Fabric มีเครื่องมือการนําเข้าข้อมูลที่มีอยู่ภายในที่ช่วยให้ผู้ใช้สามารถนําเข้าข้อมูลลงในคลังได้ตามขนาดโดยใช้ประสบการณ์การใช้งานแบบไม่มีรหัสหรือมีรหัสมากมาย

ตัวเลือกการนําเข้าข้อมูล

คุณสามารถเก็บข้อมูลลงใน Warehouse ได้โดยใช้หนึ่งในตัวเลือกต่อไปนี้:

  • COPY (Transact-SQL): คําสั่ง COPY มีการนําเข้าข้อมูลอัตราความเร็วที่ยืดหยุ่นและสูงจากบัญชีที่เก็บข้อมูล Azure ภายนอก คุณสามารถใช้คําสั่ง COPY เป็นส่วนหนึ่งของตรรกะ ETL/ELT ที่มีอยู่ของคุณในโค้ด Transact-SQL
  • ไปป์ไลน์ข้อมูล: ไปป์ไลน์นําเสนอประสบการณ์การใช้งานรหัสฟรีหรือมีรหัสต่ําสําหรับการนําเข้าข้อมูล ด้วยการใช้ไปป์ไลน์ คุณสามารถปรับแต่งเวิร์กโฟลว์ที่มีประสิทธิภาพสําหรับประสบการณ์การแยก การแปลง การโหลด (ETL) เต็มรูปแบบที่มีกิจกรรมเพื่อช่วยเตรียมสภาพแวดล้อมปลายทาง เรียกใช้คําสั่ง Transact-SQL แบบกําหนดเอง ดําเนินการค้นหา หรือคัดลอกข้อมูลจากต้นทางไปยังปลายทาง
  • กระแสข้อมูล: ทางเลือกสําหรับไปป์ไลน์ กระแสข้อมูลช่วยให้การเตรียมข้อมูล การทําความสะอาด และการแปลงข้อมูลทําได้ง่ายโดยใช้ประสบการณ์ที่ไม่มีรหัส
  • การนําเข้าข้ามคลังสินค้า: การนําเข้าข้อมูลจากแหล่งที่มาของพื้นที่ทํางานก็เป็นไปได้เช่นกัน สถานการณ์นี้อาจจําเป็นเมื่อมีความจําเป็นในการสร้างตารางใหม่ที่มีชุดย่อยของตารางที่แตกต่างกัน หรือเป็นผลมาจากการเชื่อมตารางที่แตกต่างกันในคลังสินค้าและในเลคเฮ้าส์ สําหรับการนําเข้าข้ามคลังสินค้า นอกเหนือจากตัวเลือกที่กล่าวถึง คุณลักษณะ Transact-SQL เช่น INSERT... เลือก เลือกลงใน หรือสร้างตารางเป็น SELECT (CTAS) ทํางานข้ามคลังสินค้าภายในพื้นที่ทํางานเดียวกัน

ตัดสินใจว่าจะใช้เครื่องมือการนําเข้าข้อมูลใด

หากต้องการตัดสินใจเลือกการนําเข้าข้อมูลที่จะใช้ คุณสามารถใช้เกณฑ์ต่อไปนี้:

  • ใช้คําสั่ง คัดลอก (Transact-SQL) สําหรับการดําเนินการนําเข้าข้อมูลที่เต็มไปด้วยโค้ด สําหรับอัตราความเร็วการนําเข้าข้อมูลสูงสุดที่เป็นไปได้ หรือเมื่อคุณต้องการเพิ่มการนําเข้าข้อมูลเป็นส่วนหนึ่งของตรรกะ Transact-SQL สําหรับไวยากรณ์ ดู คัดลอกลงใน (ทําธุรกรรม-SQL)
  • ใช้ ไปป์ไลน์ ข้อมูลสําหรับเวิร์กโฟลว์การนําเข้าข้อมูลที่ไม่มีรหัสหรือมีรหัสต่ําที่ทํางานซ้ํา ๆ ตามกําหนดเวลา หรือที่เกี่ยวข้องกับข้อมูลจํานวนมาก สําหรับข้อมูลเพิ่มเติม ดู การนําเข้าข้อมูลโดยใช้ไปป์ไลน์ข้อมูล
  • ใช้ กระแส ข้อมูลสําหรับประสบการณ์การใช้งานฟรีโค้ดที่อนุญาตให้มีการแปลงข้อมูลแบบกําหนดเองไปยังแหล่งข้อมูลก่อนที่จะถูกนําเข้า การแปลงเหล่านี้รวมถึง (แต่ไม่จํากัดเพียง) การเปลี่ยนแปลงชนิดข้อมูล การเพิ่มหรือลบคอลัมน์ ออก หรือการใช้ฟังก์ชันเพื่อสร้างคอลัมน์จากการคํานวณ สําหรับข้อมูลเพิ่มเติม ให้ดู กระแสข้อมูล
  • ใช้ การนําเข้า ข้ามคลังสินค้าสําหรับประสบการณ์การใช้งานที่สมบูรณ์ของรหัสเพื่อสร้างตารางใหม่ที่มีข้อมูลต้นฉบับภายในพื้นที่ทํางานเดียวกัน สําหรับข้อมูลเพิ่มเติม ให้ดู Ingest ข้อมูลโดยใช้ Transact-SQL และ เขียนคิวรีข้ามฐานข้อมูล

หมายเหตุ

คําสั่ง COPY ใน Warehouse สนับสนุนเฉพาะแหล่งข้อมูลบนบัญชีเก็บข้อมูล Azure แต่ไม่รองรับแหล่งข้อมูล OneLake ในขณะนี้

รูปแบบข้อมูลและแหล่งข้อมูลที่ได้รับการสนับสนุน

การนําเข้าข้อมูลสําหรับ Warehouse ใน Microsoft Fabric มีรูปแบบข้อมูลและแหล่งข้อมูลจํานวนมากที่คุณสามารถใช้ได้ แต่ละตัวเลือกที่แสดงประกอบด้วยรายการประเภทตัวเชื่อมต่อข้อมูลที่สนับสนุนและรูปแบบข้อมูลของตนเอง

สําหรับ การนําเข้าข้ามคลังสินค้า แหล่งข้อมูลต้องอยู่ภายในพื้นที่ทํางาน Microsoft Fabric เดียวกัน คุณสามารถดําเนินการคิวรีได้โดยใช้การตั้งชื่อสามส่วนสําหรับข้อมูลต้นฉบับ

ตัวอย่างเช่น สมมติว่ามีคลังสินค้าสองคลังที่ชื่อว่าสินค้าคงคลังและยอดขายในพื้นที่ทํางาน การสอบถามเช่นรายการต่อไปนี้จะสร้างตารางใหม่ในคลังสินค้าสินค้าคงคลังที่มีเนื้อหาของตารางในคลังสินค้าสินค้าคงคลัง รวมกับตารางในคลังสินค้าขาย:

CREATE TABLE Inventory.dbo.RegionalSalesOrders
AS
SELECT s.SalesOrders, i.ProductName
FROM Sales.dbo.SalesOrders s
JOIN Inventory.dbo.Products i
WHERE s.ProductID = i.ProductID
    AND s.Region = 'West region'

คําสั่ง คัดลอก (Transact-SQL) ในขณะนี้สนับสนุนรูปแบบไฟล์ PARQUET และ CSV สําหรับแหล่งข้อมูล ปัจจุบัน Azure Data Lake Storage (ADLS) Gen2 และ Azure Blob Storage ได้รับการสนับสนุน

ไปป์ไลน์ ข้อมูลและ กระแส ข้อมูลรองรับแหล่งข้อมูลและรูปแบบข้อมูลที่หลากหลาย สําหรับข้อมูลเพิ่มเติม ดู ไปป์ไลน์ ข้อมูลและ กระแสข้อมูล

แนวทางปฏิบัติ

คุณลักษณะคําสั่ง COPY ใน Warehouse ใน Microsoft Fabric ใช้อินเทอร์เฟซที่เรียบง่าย ยืดหยุ่น และรวดเร็วสําหรับการนําเข้าข้อมูลอัตราความเร็วสูงสําหรับปริมาณงาน SQL ในเวอร์ชันปัจจุบัน เราสนับสนุนการโหลดข้อมูลจากบัญชีที่เก็บข้อมูลภายนอกเท่านั้น

คุณยังสามารถใช้ TSQL เพื่อสร้างตารางใหม่ แล้วแทรกเข้าไปในตาราง จากนั้นอัปเดตและลบแถวของข้อมูล สามารถแทรกข้อมูลจากฐานข้อมูลใด ๆ ภายในพื้นที่ทํางาน Microsoft Fabric โดยใช้คิวรี่ข้ามฐานข้อมูล ถ้าคุณต้องการเก็บข้อมูลจาก Lakehouse ไปยังคลังสินค้า คุณสามารถทําได้ด้วยคิวรีข้ามฐานข้อมูล ตัวอย่างเช่น:

INSERT INTO MyWarehouseTable
SELECT * FROM MyLakehouse.dbo.MyLakehouseTable;
  • หลีกเลี่ยงการนําเข้าข้อมูลโดยใช้คําสั่ง INSERT แบบ singleton เนื่องจากส่งผลให้ประสิทธิภาพการทํางานกับคิวรีและการอัปเดตแย่ลง ถ้ามีการใช้คําสั่ง Singleton INSERT สําหรับการนําเข้าข้อมูลติดต่อกัน เราขอแนะนําให้สร้างตารางใหม่โดยใช้ CREATE TABLE AS SELECT (CTAS) หรือ INSERT... เลือกรูปแบบ การวางตารางต้นฉบับ แล้วสร้างตารางของคุณอีกครั้งจากตารางที่คุณสร้างขึ้นโดยใช้ CREATE TABLE AS SELECT (CTAS)
    • การลบตารางที่มีอยู่ของคุณส่งผลกระทบต่อแบบจําลองความหมายของคุณ รวมถึงหน่วยวัดหรือการกําหนดค่าแบบกําหนดเองที่คุณอาจดําเนินการกับแบบจําลองความหมาย
  • เมื่อทํางานกับข้อมูลภายนอกบนไฟล์ เราขอแนะนําให้ไฟล์มีขนาดอย่างน้อย 4 เมกะไบต์
  • สําหรับไฟล์ CSV ที่บีบอัดขนาดใหญ่ ให้ลองแยกไฟล์ของคุณออกเป็นหลายไฟล์
  • Azure Data Lake Storage (ADLS) Gen2 มีประสิทธิภาพดีกว่า Azure Blob Storage (แบบดั้งเดิม) พิจารณาใช้บัญชี ADLS Gen2 เมื่อใดก็ตามที่เป็นไปได้
  • สําหรับไปป์ไลน์ที่ทํางานบ่อย ให้พิจารณาแยกบัญชีที่เก็บข้อมูล Azure ของคุณออกจากบริการอื่น ๆ ที่สามารถเข้าถึงไฟล์เดียวกันได้ในเวลาเดียวกัน
  • ทรานแซคชันแบบชัดเจนช่วยให้คุณสามารถจัดกลุ่มการเปลี่ยนแปลงข้อมูลหลายรายการเข้าด้วยกันเพื่อให้สามารถมองเห็นได้เฉพาะเมื่ออ่านตารางหนึ่งตารางขึ้นไปเมื่อบันทึกธุรกรรมทั้งหมด นอกจากนี้คุณยังมีความสามารถในการย้อนกลับธุรกรรมหากการเปลี่ยนแปลงใด ๆ ล้มเหลว
  • ถ้า SELECT อยู่ภายในทรานแซคชัน และถูกนําหน้าด้วยการแทรก ข้อมูล สถิติ ที่สร้างขึ้นโดยอัตโนมัติอาจไม่ถูกต้องหลังจากย้อนกลับ สถิติที่ไม่ถูกต้องอาจนําไปสู่แผนคิวรีที่ไม่ได้เปลี่ยนแปลงและเวลาการดําเนินการ ถ้าคุณย้อนกลับธุรกรรมด้วย SELECTs หลังจากการแทรกขนาดใหญ่ อัปเดต สถิติ สําหรับคอลัมน์ที่ระบุใน SELECT ของคุณ

หมายเหตุ

ไม่ว่าคุณจะรวบรวมข้อมูลลงในคลังอย่างไร ไฟล์ parquet ที่สร้างขึ้นโดยงานการนําเข้าข้อมูลจะได้รับการปรับให้เหมาะสมโดยใช้การปรับการเขียนแบบ V-Order ให้เหมาะสม V-Order ปรับไฟล์ parquet ให้เหมาะสมเพื่อให้สามารถอ่านได้อย่างรวดเร็วภายใต้เครื่องมือการคํานวณ Microsoft Fabric เช่น Power BI, SQL, Spark และอื่น ๆ คิวรีคลังสินค้าได้รับประโยชน์ทั่วไปจากเวลาในการอ่านที่รวดเร็วกว่าสําหรับคิวรีที่มีการเพิ่มประสิทธิภาพนี้ ทําให้มั่นใจได้ว่าไฟล์ parquet เป็นไปตามข้อกําหนดโอเพนซอร์ส 100% V-Order เป็นการตั้งค่าส่วนกลางใน Fabric Data Warehouse ซึ่งไม่เหมือนกับใน Fabric วิศวกรข้อมูล ing สําหรับข้อมูลเพิ่มเติมเกี่ยวกับ V-Order ให้ดู ทําความเข้าใจและจัดการ V-Order สําหรับคลังสินค้า