แชร์ผ่าน


สําเนาด่วนในกระแสข้อมูล รุ่น 2

บทความนี้อธิบายคุณลักษณะการคัดลอกอย่างรวดเร็วใน Dataflows Gen2 สําหรับ Data Factory ใน Microsoft Fabric กระแสข้อมูลช่วยในการนําเข้าและแปลงข้อมูล ด้วยการแนะนําของกระแสข้อมูลจะขยายออกด้วยการคํานวณ SQL DW คุณสามารถแปลงข้อมูลของคุณตามขนาดได้ อย่างไรก็ตาม คุณจําเป็นต้องนําเข้าข้อมูลของคุณก่อน ด้วยการแนะนําสําเนาอย่างรวดเร็ว คุณสามารถนําเข้าข้อมูลได้หลายเทราไบต์ด้วยประสบการณ์ที่ง่ายดายของกระแสข้อมูล แต่ด้วยส่วนหลังที่ปรับขนาดได้ของไปป์ไลน์กิจกรรมการคัดลอก

หลังจากเปิดใช้งานความสามารถนี้ กระแสข้อมูลจะสลับส่วนหลังโดยอัตโนมัติเมื่อขนาดข้อมูลเกินเกณฑ์เฉพาะโดยไม่จําเป็นต้องเปลี่ยนแปลงสิ่งใดระหว่างการเขียนกระแสข้อมูล หลังจากรีเฟรชกระแสข้อมูลคุณสามารถตรวจสอบประวัติการรีเฟรชเพื่อดูว่ามีการใช้สําเนาด่วนในระหว่างการเรียกใช้หรือไม่โดยดูที่ ประเภทกลไก ที่ปรากฏที่นั่น

เมื่อเปิดใช้งาน จําเป็นต้องคัดลอก ตัวเลือกการรีเฟรชกระแสข้อมูลจะถูกยกเลิกหากไม่ได้ใช้การคัดลอกด่วน ซึ่งจะช่วยให้คุณหลีกเลี่ยงการรอให้การรีเฟรชหมดเวลาดําเนินการต่อ ลักษณะการทํางานนี้อาจเป็นประโยชน์ในเซสชันการดีบักเพื่อทดสอบลักษณะการทํางานของกระแสข้อมูลด้วยข้อมูลของคุณในขณะที่ลดเวลารอ การใช้ตัวบ่งชี้การคัดลอกด่วนในบานหน้าต่างขั้นตอนคิวรี คุณสามารถตรวจสอบได้อย่างง่ายดายว่าคิวรีของคุณสามารถเรียกใช้งานด้วยการคัดลอกอย่างรวดเร็วหรือไม่

สกรีนช็อตที่แสดงตําแหน่งที่ตัวบ่งชี้การคัดลอกด่วนปรากฏในบานหน้าต่างขั้นตอนคิวรี

ข้อกำหนดเบื้องต้น

  • คุณต้องมีความจุ Fabric
  • สําหรับข้อมูลไฟล์ ไฟล์จะอยู่ในรูปแบบ.csv หรือ parquet อย่างน้อย 100 MB และจัดเก็บไว้ใน Azure Data Lake Storage (ADLS) Gen2 หรือบัญชีเก็บข้อมูล Blob
  • สําหรับฐานข้อมูลรวมถึง Azure SQL DB และ PostgreSQL มีข้อมูล 5 ล้านแถวหรือมากกว่าในแหล่งข้อมูล

หมายเหตุ

คุณสามารถข้ามค่าเกณฑ์เพื่อบังคับใช้ Fast Copy โดยการเลือกการตั้งค่า "ต้องการการคัดลอกอย่างรวดเร็ว"

การสนับสนุนตัวเชื่อมต่อ

การคัดลอกด่วนในขณะนี้ได้รับการสนับสนุนสําหรับตัวเชื่อมต่อ Dataflow Gen2 ต่อไปนี้:

  • ADLS Gen2
  • ที่เก็บข้อมูล Blob
  • Azure SQL DB
  • เลคเฮ้าส์
  • PostgreSQL
  • SQL Server ภายในองค์กร
  • คลังสินค้า
  • Oracle
  • Snowflake

กิจกรรมการคัดลอกสนับสนุนการแปลงข้อมูลเพียงไม่กี่รายการเมื่อเชื่อมต่อกับแหล่งข้อมูลของไฟล์:

  • รวมไฟล์
  • เลือกคอลัมน์
  • เปลี่ยนชนิดข้อมูล
  • เปลี่ยนชื่อคอลัมน์
  • ลบคอลัมน์

คุณยังสามารถใช้การแปลงข้อมูลอื่นๆ ได้โดยการแยกขั้นตอนการนําเข้าและการแปลงข้อมูลเป็นคิวรีที่แยกต่างหาก คิวรีแรกจะดึงข้อมูลและคิวรีที่สองอ้างอิงผลลัพธ์เพื่อให้สามารถใช้การคํานวณ DW ได้ สําหรับแหล่งข้อมูล SQL การแปลงใด ๆ ที่เป็นส่วนหนึ่งของคิวรีในระบบได้รับการสนับสนุน

เมื่อคุณโหลดคิวรีไปยังปลายทางผลลัพธ์โดยตรง ระบบจะรองรับเฉพาะปลายทางของเลคเฮ้าส์ในขณะนี้เท่านั้น ถ้าคุณต้องการใช้ปลายทางผลลัพธ์อื่น คุณสามารถจัดรูปแบบคิวรีก่อนและอ้างอิงในภายหลังได้

วิธีการใช้สําเนาอย่างรวดเร็ว

  1. นําทางไปยังจุดสิ้นสุด Fabric ที่เหมาะสม

  2. นําทางไปยังพื้นที่ทํางานแบบพรีเมียมและสร้างกระแสข้อมูล Gen2

  3. บนแท็บ หน้าแรก ของกระแสข้อมูลใหม่ ให้เลือก ตัวเลือก:

    สกรีนช็อตแสดงตําแหน่งที่จะเลือกตัวเลือกสําหรับกระแสข้อมูล Gen2 บนแท็บหน้าแรก

  4. จากนั้นเลือก แท็บ มาตราส่วน ในกล่องโต้ตอบ ตัวเลือก และเลือกกล่องกา เครื่องหมาย อนุญาตให้ใช้ตัวเชื่อมต่อ สําเนาอย่างรวดเร็ว เพื่อเปิดสําเนาอย่างรวดเร็ว จากนั้นปิดกล่องโต้ตอบ ตัวเลือก

    สกรีนช็อตแสดงตําแหน่งที่จะเปิดใช้งานสําเนาอย่างรวดเร็วบนแท็บสเกลของกล่องโต้ตอบตัวเลือก

  5. เลือก รับข้อมูล จากนั้นเลือกแหล่งข้อมูล ADLS Gen2 และกรอกรายละเอียดสําหรับคอนเทนเนอร์ของคุณ

  6. ใช้ฟังก์ชันรวมไฟล์

    สกรีนช็อตแสดงหน้าต่างแสดงตัวอย่างข้อมูลโฟลเดอร์พร้อมตัวเลือกรวมที่ถูกเน้น

  7. เพื่อให้แน่ใจว่าการคัดลอกอย่างรวดเร็ว ให้ใช้การแปลงที่แสดงในส่วนการสนับสนุนตัวเชื่อมต่อของบทความนี้เท่านั้น หากคุณต้องการใช้การแปลงเพิ่มเติม ระยะของข้อมูลก่อน และอ้างอิงคิวรีในภายหลัง ทําการแปลงอื่นๆ บนคิวรีที่อ้างอิง

  8. (ไม่บังคับ) คุณสามารถตั้งค่า ตัวเลือก ต้องการสําเนา ด่วน สําหรับคิวรีโดยการคลิกขวาเพื่อเลือกและเปิดใช้งานตัวเลือกนั้น

    สกรีนช็อตแสดงตําแหน่งที่จะเลือกตัวเลือก ต้องการสําเนาด่วน บนเมนูคลิกขวาสําหรับคิวรี

  9. (ไม่บังคับ) ในปัจจุบัน คุณสามารถกําหนดค่าของเลคเฮ้าส์เป็นปลายทางที่ส่งออกได้เท่านั้น สําหรับปลายทางอื่น ๆ ลําดับขั้นคิวรีและอ้างอิงในภายหลังในคิวรีอื่นที่คุณสามารถส่งออกไปยังแหล่งข้อมูลใด ๆ ได้

  10. ตรวจสอบตัวบ่งชี้การคัดลอกอย่างรวดเร็วเพื่อดูว่าคิวรีของคุณสามารถทํางานกับการคัดลอกได้อย่างรวดเร็วได้หรือไม่ ถ้าเป็นเช่นนั้น ประเภทกลไกจัดการจะแสดง CopyActivity

    สกรีนช็อตที่แสดงรายละเอียดการรีเฟรชที่ระบุว่ามีการใช้กลไกจัดการ CopyActivity ของไปป์ไลน์

  11. เผยแพร่กระแสข้อมูล

  12. ตรวจสอบหลังจากรีเฟรชเสร็จสมบูรณ์เพื่อยืนยันการใช้สําเนาด่วน

วิธีการแยกคิวรีของคุณเพื่อใช้ประโยชน์การคัดลอกอย่างรวดเร็ว

เพื่อให้มีประสิทธิภาพสูงสุดเมื่อประมวลผลข้อมูลจํานวนมากด้วย Dataflow Gen2 ให้ใช้คุณลักษณะ Fast Copy เพื่อนําเข้าข้อมูลลงในการจัดเตรียมก่อน จากนั้นแปลงตามมาตราส่วนด้วยการคํานวณ SQL DW วิธีการนี้ช่วยเพิ่มประสิทธิภาพการทํางานแบบ end-to-end อย่างมาก

เมื่อต้องการดําเนินการนี้ ตัวบ่งชี้ Fast Copy สามารถแนะนําคุณในการแยกคิวรีออกเป็นสองส่วน: การนําเข้าข้อมูลเพื่อจัดเตรียมและการแปลงข้อมูลขนาดใหญ่ด้วยการคํานวณ SQL DW คุณควรส่งการประเมินผลคิวรีไปยัง Fast Copy ที่สามารถใช้เพื่อนําเข้าข้อมูลของคุณมากที่สุด เมื่อตัวบ่งชี้การคัดลอกด่วนบอกได้ว่าขั้นตอนที่เหลือไม่สามารถดําเนินการได้โดย Fast Copy คุณสามารถแยกคิวรีที่เหลือได้ด้วยการจัดเตรียมที่เปิดใช้งาน

ตัวบ่งชี้การวินิจฉัยขั้นตอน

ไฟเลี้ยว ไอคอน คำอธิบาย
ขั้นตอนนี้จะได้รับการประเมินด้วยการคัดลอกอย่างรวดเร็ว ตัวบ่งชี้สําเนาด่วนจะบอกคุณว่าคิวรีจนถึงขั้นตอนนี้สนับสนุนการคัดลอกอย่างรวดเร็ว
ขั้นตอนนี้ไม่ได้รับการรองรับโดยการคัดลอกด่วน ตัวบ่งชี้สําเนาด่วนแสดงว่าขั้นตอนนี้ไม่สนับสนุนสําเนาด่วน
อย่างน้อยหนึ่งขั้นตอนในคิวรีของคุณไม่ได้รับการสนับสนุนโดย คิวรีอย่างรวดเร็ว ตัวบ่งชี้สําเนาด่วน แสดงให้เห็นว่าบางขั้นตอนในคิวรีนี้สนับสนุนสําเนาด่วน ในขณะที่ขั้นตอนอื่นๆ ไม่รองรับ เมื่อต้องการปรับให้เหมาะสม ให้แยกคิวรี: ขั้นตอนสีเหลือง (อาจได้รับการสนับสนุนโดย Fast Copy) และขั้นตอนสีแดง (ไม่รองรับ)

คําแนะนําทีละขั้นตอน

หลังจากเสร็จสิ้นตรรกะการแปลงข้อมูลของคุณใน Dataflow Gen2 แล้ว ตัวบ่งชี้ Fast Copy จะประเมินแต่ละขั้นตอนเพื่อกําหนดจํานวนขั้นตอนที่สามารถใช้ประโยชน์จาก Fast Copy เพื่อประสิทธิภาพที่ดีขึ้น

ในตัวอย่างด้านล่าง ขั้นตอนสุดท้ายจะแสดงเป็นสีแดง ซึ่งแสดงว่าขั้นตอนที่มี จัดกลุ่มตาม ไม่ได้รับการสนับสนุนโดยการคัดลอกด่วน อย่างไรก็ตาม ขั้นตอนก่อนหน้านี้ทั้งหมดที่แสดงสีเหลืองอาจได้รับการสนับสนุนโดย Fast Copy

สกรีนช็อตที่แสดงคิวรีแรก

ในขณะนี้ ถ้าคุณเผยแพร่และเรียกใช้ Dataflow Gen2 ของคุณโดยตรง ระบบจะไม่ใช้โปรแกรม Fast Copy เพื่อโหลดข้อมูลของคุณเป็นภาพด้านล่าง:

สกรีนช็อตที่แสดงผลลัพธ์โดยไม่มีการเปิดใช้งานการคัดลอกอย่างรวดเร็ว

หากต้องการใช้กลไกการคัดลอกอย่างรวดเร็วและปรับปรุงประสิทธิภาพการทํางานของ Dataflow Gen2 คุณสามารถแยกคิวรีของคุณเป็นสองส่วน: การนําเข้าข้อมูลเพื่อจัดเตรียมและการแปลงข้อมูลขนาดใหญ่ด้วยการคํานวณ SQL DW ดังต่อไปนี้:

  1. ลบการแปลง (แสดงสีแดง) ที่ไม่ได้รับการรองรับโดย Fast Copy พร้อมกับปลายทาง (ถ้ากําหนด)

  2. ตัวบ่งชี้สําเนาด่วน ตอนนี้แสดงสีเขียวสําหรับขั้นตอนที่เหลือ ซึ่งหมายความว่าคิวรีแรกของคุณสามารถใช้ประโยชน์จาก Fast Copy เพื่อประสิทธิภาพการทํางานที่ดียิ่งขึ้น

    เลือกการดําเนินการสําหรับคิวรีแรกของคุณ จากนั้นเลือกเปิดใช้งานการจัดเตรียมและการอ้างอิง

    สกรีนช็อตที่แสดงคิวรีที่สอง

  3. ในคิวรีอ้างอิงใหม่ อ่านการแปลง "จัดกลุ่มตาม" และปลายทาง (ถ้ามี)

    สกรีนช็อตที่แสดงคิวรีที่สาม

  4. เผยแพร่และรีเฟรช Dataflow Gen2 ของคุณ ตอนนี้คุณจะเห็นคิวรีสองรายการใน Dataflow Gen2 ของคุณ และระยะเวลาโดยรวมลดลงอย่างมาก

    • คิวรีแรกจะนําเข้าข้อมูลลงในการจัดเตรียมโดยใช้สําเนาด่วน

    • คิวรีที่สองทําการแปลงข้อมูลขนาดใหญ่โดยใช้การคํานวณ SQL DW

      สกรีนช็อตที่แสดงผลลัพธ์ของคิวรี

    คิวรีแรก:

    สกรีนช็อตที่แสดงผลลัพธ์ของการนําเข้า

    คิวรีที่สอง:

    สกรีนช็อตที่แสดงผลลัพธ์ของการแปลง

ข้อจำกัดที่ทราบ

  1. จําเป็นต้องใช้เกตเวย์ข้อมูลภายในองค์กรเวอร์ชัน 3000.214.2 หรือใหม่กว่าเพื่อสนับสนุนสําเนาด่วน
  2. เกตเวย์ VNet ไม่ได้รับการสนับสนุน
  3. การเขียนข้อมูลลงในตารางที่มีอยู่ใน Lakehouse ไม่ได้รับการสนับสนุน
  4. ไม่สนับสนุน Schema แบบคงที่