สําเนาด่วนในกระแสข้อมูล รุ่น 2
บทความนี้อธิบายคุณลักษณะการคัดลอกอย่างรวดเร็วใน Dataflows Gen2 สําหรับ Data Factory ใน Microsoft Fabric กระแสข้อมูลช่วยในการนําเข้าและแปลงข้อมูล ด้วยการแนะนําของกระแสข้อมูลจะขยายออกด้วยการคํานวณ SQL DW คุณสามารถแปลงข้อมูลของคุณตามขนาดได้ อย่างไรก็ตาม คุณจําเป็นต้องนําเข้าข้อมูลของคุณก่อน ด้วยการแนะนําสําเนาอย่างรวดเร็ว คุณสามารถนําเข้าข้อมูลได้หลายเทราไบต์ด้วยประสบการณ์ที่ง่ายดายของกระแสข้อมูล แต่ด้วยส่วนหลังที่ปรับขนาดได้ของไปป์ไลน์กิจกรรมการคัดลอก
หลังจากเปิดใช้งานความสามารถนี้ กระแสข้อมูลจะสลับส่วนหลังโดยอัตโนมัติเมื่อขนาดข้อมูลเกินเกณฑ์เฉพาะโดยไม่จําเป็นต้องเปลี่ยนแปลงสิ่งใดระหว่างการเขียนกระแสข้อมูล หลังจากรีเฟรชกระแสข้อมูลคุณสามารถตรวจสอบประวัติการรีเฟรชเพื่อดูว่ามีการใช้สําเนาด่วนในระหว่างการเรียกใช้หรือไม่โดยดูที่ ประเภทกลไก ที่ปรากฏที่นั่น
เมื่อเปิดใช้งาน จําเป็นต้องคัดลอก ตัวเลือกการรีเฟรชกระแสข้อมูลจะถูกยกเลิกหากไม่ได้ใช้การคัดลอกด่วน ซึ่งจะช่วยให้คุณหลีกเลี่ยงการรอให้การรีเฟรชหมดเวลาดําเนินการต่อ ลักษณะการทํางานนี้อาจเป็นประโยชน์ในเซสชันการดีบักเพื่อทดสอบลักษณะการทํางานของกระแสข้อมูลด้วยข้อมูลของคุณในขณะที่ลดเวลารอ การใช้ตัวบ่งชี้การคัดลอกด่วนในบานหน้าต่างขั้นตอนคิวรี คุณสามารถตรวจสอบได้อย่างง่ายดายว่าคิวรีของคุณสามารถเรียกใช้งานด้วยการคัดลอกอย่างรวดเร็วหรือไม่
ข้อกำหนดเบื้องต้น
- คุณต้องมีความจุ Fabric
- สําหรับข้อมูลไฟล์ ไฟล์จะอยู่ในรูปแบบ.csv หรือ parquet อย่างน้อย 100 MB และจัดเก็บไว้ใน Azure Data Lake Storage (ADLS) Gen2 หรือบัญชีเก็บข้อมูล Blob
- สําหรับฐานข้อมูลรวมถึง Azure SQL DB และ PostgreSQL มีข้อมูล 5 ล้านแถวหรือมากกว่าในแหล่งข้อมูล
หมายเหตุ
คุณสามารถข้ามค่าเกณฑ์เพื่อบังคับใช้ Fast Copy โดยการเลือกการตั้งค่า "ต้องการการคัดลอกอย่างรวดเร็ว"
การสนับสนุนตัวเชื่อมต่อ
การคัดลอกด่วนในขณะนี้ได้รับการสนับสนุนสําหรับตัวเชื่อมต่อ Dataflow Gen2 ต่อไปนี้:
- ADLS Gen2
- ที่เก็บข้อมูล Blob
- Azure SQL DB
- เลคเฮ้าส์
- PostgreSQL
- SQL Server ภายในองค์กร
- คลังสินค้า
- Oracle
- Snowflake
กิจกรรมการคัดลอกสนับสนุนการแปลงข้อมูลเพียงไม่กี่รายการเมื่อเชื่อมต่อกับแหล่งข้อมูลของไฟล์:
- รวมไฟล์
- เลือกคอลัมน์
- เปลี่ยนชนิดข้อมูล
- เปลี่ยนชื่อคอลัมน์
- ลบคอลัมน์
คุณยังสามารถใช้การแปลงข้อมูลอื่นๆ ได้โดยการแยกขั้นตอนการนําเข้าและการแปลงข้อมูลเป็นคิวรีที่แยกต่างหาก คิวรีแรกจะดึงข้อมูลและคิวรีที่สองอ้างอิงผลลัพธ์เพื่อให้สามารถใช้การคํานวณ DW ได้ สําหรับแหล่งข้อมูล SQL การแปลงใด ๆ ที่เป็นส่วนหนึ่งของคิวรีในระบบได้รับการสนับสนุน
เมื่อคุณโหลดคิวรีไปยังปลายทางผลลัพธ์โดยตรง ระบบจะรองรับเฉพาะปลายทางของเลคเฮ้าส์ในขณะนี้เท่านั้น ถ้าคุณต้องการใช้ปลายทางผลลัพธ์อื่น คุณสามารถจัดรูปแบบคิวรีก่อนและอ้างอิงในภายหลังได้
วิธีการใช้สําเนาอย่างรวดเร็ว
นําทางไปยังจุดสิ้นสุด Fabric ที่เหมาะสม
นําทางไปยังพื้นที่ทํางานแบบพรีเมียมและสร้างกระแสข้อมูล Gen2
บนแท็บ หน้าแรก ของกระแสข้อมูลใหม่ ให้เลือก ตัวเลือก:
จากนั้นเลือก แท็บ มาตราส่วน ในกล่องโต้ตอบ ตัวเลือก และเลือกกล่องกา เครื่องหมาย อนุญาตให้ใช้ตัวเชื่อมต่อ สําเนาอย่างรวดเร็ว เพื่อเปิดสําเนาอย่างรวดเร็ว จากนั้นปิดกล่องโต้ตอบ ตัวเลือก
เลือก รับข้อมูล จากนั้นเลือกแหล่งข้อมูล ADLS Gen2 และกรอกรายละเอียดสําหรับคอนเทนเนอร์ของคุณ
ใช้ฟังก์ชันรวมไฟล์
เพื่อให้แน่ใจว่าการคัดลอกอย่างรวดเร็ว ให้ใช้การแปลงที่แสดงในส่วนการสนับสนุนตัวเชื่อมต่อของบทความนี้เท่านั้น หากคุณต้องการใช้การแปลงเพิ่มเติม ระยะของข้อมูลก่อน และอ้างอิงคิวรีในภายหลัง ทําการแปลงอื่นๆ บนคิวรีที่อ้างอิง
(ไม่บังคับ) คุณสามารถตั้งค่า ตัวเลือก ต้องการสําเนา ด่วน สําหรับคิวรีโดยการคลิกขวาเพื่อเลือกและเปิดใช้งานตัวเลือกนั้น
(ไม่บังคับ) ในปัจจุบัน คุณสามารถกําหนดค่าของเลคเฮ้าส์เป็นปลายทางที่ส่งออกได้เท่านั้น สําหรับปลายทางอื่น ๆ ลําดับขั้นคิวรีและอ้างอิงในภายหลังในคิวรีอื่นที่คุณสามารถส่งออกไปยังแหล่งข้อมูลใด ๆ ได้
ตรวจสอบตัวบ่งชี้การคัดลอกอย่างรวดเร็วเพื่อดูว่าคิวรีของคุณสามารถทํางานกับการคัดลอกได้อย่างรวดเร็วได้หรือไม่ ถ้าเป็นเช่นนั้น ประเภทกลไกจัดการจะแสดง CopyActivity
เผยแพร่กระแสข้อมูล
ตรวจสอบหลังจากรีเฟรชเสร็จสมบูรณ์เพื่อยืนยันการใช้สําเนาด่วน
วิธีการแยกคิวรีของคุณเพื่อใช้ประโยชน์การคัดลอกอย่างรวดเร็ว
เพื่อให้มีประสิทธิภาพสูงสุดเมื่อประมวลผลข้อมูลจํานวนมากด้วย Dataflow Gen2 ให้ใช้คุณลักษณะ Fast Copy เพื่อนําเข้าข้อมูลลงในการจัดเตรียมก่อน จากนั้นแปลงตามมาตราส่วนด้วยการคํานวณ SQL DW วิธีการนี้ช่วยเพิ่มประสิทธิภาพการทํางานแบบ end-to-end อย่างมาก
เมื่อต้องการดําเนินการนี้ ตัวบ่งชี้ Fast Copy สามารถแนะนําคุณในการแยกคิวรีออกเป็นสองส่วน: การนําเข้าข้อมูลเพื่อจัดเตรียมและการแปลงข้อมูลขนาดใหญ่ด้วยการคํานวณ SQL DW คุณควรส่งการประเมินผลคิวรีไปยัง Fast Copy ที่สามารถใช้เพื่อนําเข้าข้อมูลของคุณมากที่สุด เมื่อตัวบ่งชี้การคัดลอกด่วนบอกได้ว่าขั้นตอนที่เหลือไม่สามารถดําเนินการได้โดย Fast Copy คุณสามารถแยกคิวรีที่เหลือได้ด้วยการจัดเตรียมที่เปิดใช้งาน
ตัวบ่งชี้การวินิจฉัยขั้นตอน
ไฟเลี้ยว | ไอคอน | คำอธิบาย |
---|---|---|
ขั้นตอนนี้จะได้รับการประเมินด้วยการคัดลอกอย่างรวดเร็ว | ตัวบ่งชี้สําเนาด่วนจะบอกคุณว่าคิวรีจนถึงขั้นตอนนี้สนับสนุนการคัดลอกอย่างรวดเร็ว | |
ขั้นตอนนี้ไม่ได้รับการรองรับโดยการคัดลอกด่วน | ตัวบ่งชี้สําเนาด่วนแสดงว่าขั้นตอนนี้ไม่สนับสนุนสําเนาด่วน | |
อย่างน้อยหนึ่งขั้นตอนในคิวรีของคุณไม่ได้รับการสนับสนุนโดย คิวรีอย่างรวดเร็ว | ตัวบ่งชี้สําเนาด่วน แสดงให้เห็นว่าบางขั้นตอนในคิวรีนี้สนับสนุนสําเนาด่วน ในขณะที่ขั้นตอนอื่นๆ ไม่รองรับ เมื่อต้องการปรับให้เหมาะสม ให้แยกคิวรี: ขั้นตอนสีเหลือง (อาจได้รับการสนับสนุนโดย Fast Copy) และขั้นตอนสีแดง (ไม่รองรับ) |
คําแนะนําทีละขั้นตอน
หลังจากเสร็จสิ้นตรรกะการแปลงข้อมูลของคุณใน Dataflow Gen2 แล้ว ตัวบ่งชี้ Fast Copy จะประเมินแต่ละขั้นตอนเพื่อกําหนดจํานวนขั้นตอนที่สามารถใช้ประโยชน์จาก Fast Copy เพื่อประสิทธิภาพที่ดีขึ้น
ในตัวอย่างด้านล่าง ขั้นตอนสุดท้ายจะแสดงเป็นสีแดง ซึ่งแสดงว่าขั้นตอนที่มี จัดกลุ่มตาม ไม่ได้รับการสนับสนุนโดยการคัดลอกด่วน อย่างไรก็ตาม ขั้นตอนก่อนหน้านี้ทั้งหมดที่แสดงสีเหลืองอาจได้รับการสนับสนุนโดย Fast Copy
ในขณะนี้ ถ้าคุณเผยแพร่และเรียกใช้ Dataflow Gen2 ของคุณโดยตรง ระบบจะไม่ใช้โปรแกรม Fast Copy เพื่อโหลดข้อมูลของคุณเป็นภาพด้านล่าง:
หากต้องการใช้กลไกการคัดลอกอย่างรวดเร็วและปรับปรุงประสิทธิภาพการทํางานของ Dataflow Gen2 คุณสามารถแยกคิวรีของคุณเป็นสองส่วน: การนําเข้าข้อมูลเพื่อจัดเตรียมและการแปลงข้อมูลขนาดใหญ่ด้วยการคํานวณ SQL DW ดังต่อไปนี้:
ลบการแปลง (แสดงสีแดง) ที่ไม่ได้รับการรองรับโดย Fast Copy พร้อมกับปลายทาง (ถ้ากําหนด)
ตัวบ่งชี้สําเนาด่วน ตอนนี้แสดงสีเขียวสําหรับขั้นตอนที่เหลือ ซึ่งหมายความว่าคิวรีแรกของคุณสามารถใช้ประโยชน์จาก Fast Copy เพื่อประสิทธิภาพการทํางานที่ดียิ่งขึ้น
เลือกการดําเนินการสําหรับคิวรีแรกของคุณ จากนั้นเลือกเปิดใช้งานการจัดเตรียมและการอ้างอิง
ในคิวรีอ้างอิงใหม่ อ่านการแปลง "จัดกลุ่มตาม" และปลายทาง (ถ้ามี)
เผยแพร่และรีเฟรช Dataflow Gen2 ของคุณ ตอนนี้คุณจะเห็นคิวรีสองรายการใน Dataflow Gen2 ของคุณ และระยะเวลาโดยรวมลดลงอย่างมาก
คิวรีแรกจะนําเข้าข้อมูลลงในการจัดเตรียมโดยใช้สําเนาด่วน
คิวรีที่สองทําการแปลงข้อมูลขนาดใหญ่โดยใช้การคํานวณ SQL DW
คิวรีแรก:
คิวรีที่สอง:
ข้อจำกัดที่ทราบ
- จําเป็นต้องใช้เกตเวย์ข้อมูลภายในองค์กรเวอร์ชัน 3000.214.2 หรือใหม่กว่าเพื่อสนับสนุนสําเนาด่วน
- เกตเวย์ VNet ไม่ได้รับการสนับสนุน
- การเขียนข้อมูลลงในตารางที่มีอยู่ใน Lakehouse ไม่ได้รับการสนับสนุน
- ไม่สนับสนุน Schema แบบคงที่