ไปป์ไลน์การปรับใช้ Lakehouse และการรวม git (ตัวอย่าง)
Lakehouse ผสานรวมกับความสามารถในการจัดการวงจรชีวิตใน Microsoft Fabric ซึ่งเป็นการทํางานร่วมกันที่ได้มาตรฐานระหว่างสมาชิกทีมพัฒนาทุกคนตลอดชีวิตของผลิตภัณฑ์ การจัดการวงจรชีวิตช่วยอํานวยความสะดวกในการกําหนดรุ่นและเผยแพร่ผลิตภัณฑ์ที่มีประสิทธิภาพโดยการนําเสนอคุณลักษณะและการแก้ไขข้อบกพร่องในหลายสภาพแวดล้อมอย่างต่อเนื่อง หากต้องการเรียนรู้เพิ่มเติม โปรดดู การจัดการวงจรชีวิตใน Microsoft Fabric คืออะไร
สำคัญ
คุณลักษณะนี้อยู่ในตัวอย่าง
การรวม Lakehouse git
Lakehouse เป็นรายการที่ประกอบด้วยทั้งเมตาดาต้าและข้อมูลที่ถูกอ้างอิงในหลายวัตถุในพื้นที่ทํางาน เลคเฮ้าส์ประกอบด้วยตาราง โฟลเดอร์ และทางลัดเป็นรายการคอนเทนเนอร์ข้อมูลที่สามารถจัดการได้หลัก จากมุมมองเวิร์กโฟลว์การพัฒนา วัตถุที่ขึ้นต่อกันต่อไปนี้อาจอ้างอิงถึงเลคเฮ้าส์:
- กระแส ข้อมูลและ ไปป์ไลน์ข้อมูล
- ข้อกําหนดงาน Spark
- โน้ต บุ๊ค
- แบบจําลองความหมายและ Power BI
แบบจําลองความหมายเริ่มต้นและเมตาดาต้าปลายทางการวิเคราะห์ SQL จะเกี่ยวข้องกับ Lakehouse และจัดการโดยกระบวนการอัปเดต git ตามค่าเริ่มต้น เนื่องจากไม่มีการติดตามข้อมูลหลักการ ใน git มีการติดตามเฉพาะเมตาดาต้าเท่านั้น
การแสดง Git
ข้อมูลของเลคเฮ้าส์ต่อไปนี้จะถูกซีเรียลไลซ์และติดตามในพื้นที่ทํางานที่เชื่อมต่อ git:
- ชื่อที่แสดง
- คำอธิบาย
- guid แบบลอจิคัล
หมายเหตุ
guid เชิงตรรกะที่ถูกติดตามเป็นตัวระบุพื้นที่ทํางานข้ามที่สร้างขึ้นโดยอัตโนมัติที่แสดงถึงหน่วยข้อมูลและการแสดงตัวควบคุมแหล่งข้อมูล
สำคัญ
มีการติดตามเฉพาะวัตถุคอนเทนเนอร์ของ Lakehouse ใน git ในประสบการณ์ปัจจุบัน ตาราง (Delta และไม่ใช่ Delta) และโฟลเดอร์ในส่วนไฟล์จะไม่ถูกติดตาม และเวอร์ชันใน git
ความสามารถในการรวม Lakehouse git
ความสามารถต่อไปนี้จะพร้อมใช้งาน:
- การอนุกรมของเมตาดาต้าวัตถุของ Lakehouse เป็นตัวแทน git JSON
- ใช้การเปลี่ยนแปลงโดยตรงหรือใช้คําขอดึงข้อมูลเพื่อควบคุมการเปลี่ยนแปลงพื้นที่ทํางานและสาขาต้นทางหรือปลายทาง
- การเปลี่ยนชื่อเลคเฮ้าส์มีการติดตามใน git การอัปเดต lakehouse ที่เปลี่ยนชื่อแล้วจะเปลี่ยนชื่อแบบจําลองข้อมูลเชิงความหมายเริ่มต้นและจุดสิ้นสุด SQL Analytics
- ไม่มีการดําเนินการใด ๆ ถูกนําไปใช้กับตารางและโฟลเดอร์เมตาดาต้าและข้อมูลของรายการเหล่านั้นจะถูกรักษาไว้เสมอ
- เมตาดาต้าของ OneLake Shortcuts จะถูกรักษาไว้ใน git
ความสามารถในการรวม OneLake Shortcuts git
- ข้อกําหนดทางลัดในทั้งส่วน ตาราง และ ไฟล์ จะถูกเก็บไว้ในไฟล์ที่ชื่อ
shortcuts.metadata.json
ภายใต้โฟลเดอร์ lakehouse ใน git - การดําเนินการต่อไปนี้ได้รับการสนับสนุนและติดตามโดยอัตโนมัติ: การเพิ่ม การลบ และการอัปเดต ของทางลัด
- สามารถดําเนินการได้โดยตรงในอินเทอร์เฟซผู้ใช้ Fabric หรือในที่เก็บ git โดยการเปลี่ยนไฟล์
shortcuts.metadata.json
- ทางลัดที่มีเป้าหมายภายใน (ทางลัด OneLake) จะได้รับการอัปเดตโดยอัตโนมัติในระหว่างการซิงโครไนซ์ git เพื่อให้ปุ่มลัดถูกต้อง ข้อมูลอ้างอิงเหล่านั้นต้องเป็นเป้าหมายที่ถูกต้องในพื้นที่ทํางาน หากเป้าหมายไม่ถูกต้องสําหรับทางลัดที่กําหนดไว้ในส่วนตาราง lakehouse ทางลัดเหล่านั้นจะถูกย้ายไปยังส่วน
Unidentified
จนกว่าจะแก้ไขการอ้างอิง
สำคัญ
ใช้ความระมัดระวังเมื่อเปลี่ยนคุณสมบัติทางลัด OneLake โดยตรงในไฟล์ shortcuts.metadata.json
การเปลี่ยนแปลงที่ไม่ถูกต้องไปยังคุณสมบัติ GUID พิเศษสามารถแสดงทางลัด OneLake ไม่ถูกต้องเมื่อมีการนําการอัปเดตกลับไปยังพื้นที่ทํางาน
สำคัญ
การอัปเดตจาก git จะแทนที่สถานะของทางลัดในพื้นที่ทํางาน ทางลัดทั้งหมดในพื้นที่ทํางานจะถูกสร้างขึ้น อัปเดต หรือลบโดยยึดตามสถานะที่เข้ามาจาก git
เลคเฮ้าส์ในไปป์ไลน์การปรับใช้งาน
เลคเฮ้าส์ได้รับการสนับสนุนในไปป์ไลน์การปรับใช้การจัดการวงจรชีวิต Microsoft Fabric ซึ่งเปิดใช้งานแนวทางปฏิบัติที่ดีที่สุดสําหรับการแบ่งเซกเมนต์สภาพแวดล้อม
ความสามารถในการรวมไปป์ไลน์การปรับใช้ Lakehouse:
การปรับใช้ทั่วทั้งพื้นที่ทํางานการพัฒนา การทดสอบ และการผลิต
เลคเฮ้าส์สามารถลบออกเป็นวัตถุที่ขึ้นต่อกันได้เมื่อมีการปรับใช้ การแมปเลคเฮ้าส์ที่แตกต่างกันภายในบริบทไปป์ไลน์การปรับใช้ยังได้รับการสนับสนุน
ถ้าไม่มีการระบุสิ่งใดในระหว่างการกําหนดค่าไปป์ไลน์การปรับใช้ ออบเจ็กต์ Lakehouse ที่ว่างเปล่าใหม่ที่มีชื่อเดียวกันจะถูกสร้างขึ้นในพื้นที่ทํางานเป้าหมาย ข้อกําหนดงานของสมุดบันทึกและ Spark จะถูกแมปใหม่เพื่ออ้างอิงวัตถุ Lakehouse ใหม่ในพื้นที่ทํางานใหม่
ถ้าการขึ้นต่อกันของเลคเฮ้าส์ถูกกําหนดค่าให้อ้างอิงสําหรับเลคเฮ้าส์ที่แตกต่างกันในระหว่างการปรับใช้เวลาการกําหนดค่าไปป์ไลน์ เช่น อัปสตรีมเลคเฮ้าส์ วัตถุใหม่ที่ว่างเปล่าของ Lakehouse ที่มีชื่อเดียวกันยังคงถูกสร้างขึ้นในพื้นที่ทํางานเป้าหมาย แต่การอ้างอิงสมุดบันทึกและ Spark Job Definitions จะถูกเก็บไว้ที่เลคเฮ้าส์อื่นตามที่ร้องขอ
จุดสิ้นสุดการวิเคราะห์ SQL และแบบจําลองความหมายถูกเตรียมใช้งานเป็นส่วนหนึ่งของการปรับใช้เลคเฮ้าส์
ไม่มีวัตถุภายในเลคเฮ้าส์ถูกเขียนทับ
การอัปเดตชื่อเลคเฮ้าส์สามารถซิงโครไนซ์ข้ามพื้นที่ทํางานในบริบทไปป์ไลน์การปรับใช้ได้
ทางลัด OneLake ในไปป์ไลน์การปรับใช้
- มีการซิงค์ข้อกําหนดทางลัดทั่วทั้งขั้นตอนในไปป์ไลน์การปรับใช้
- ทางลัดที่มีเป้าหมายภายนอก (ADLS Gen2, S3 ฯลฯ) จะเหมือนกันในทุกขั้นตอนหลังจากการปรับใช้
- ทางลัดที่มีเป้าหมายภายใน (ทางลัด OneLake) ในพื้นที่ทํางานเดียวกันจะถูกแมปใหม่โดยอัตโนมัติทั่วทั้งขั้นตอน ทางลัดที่กําหนดเป้าหมายคลังข้อมูลและแบบจําลองความหมายจะไม่ถูกแมปใหม่ในระหว่างการปรับใช้ ตาราง โฟลเดอร์ และไฟล์ไม่ได้ถูกสร้างขึ้นในพื้นที่ทํางานเป้าหมาย เพื่อให้ทางลัดถูกต้อง การอ้างอิงเหล่านั้นจะต้องถูกสร้างขึ้นในพื้นที่ทํางานเป้าหมายหลังจากการปรับใช้
- ในสถานการณ์ที่ปุ่มลัดเดียวกันจําเป็นต้องกําหนดเป้าหมายตําแหน่งที่ตั้งที่แตกต่างกันในขั้นตอนที่แตกต่างกัน ตัวอย่างเช่นในการพัฒนาชี้ไปที่โฟลเดอร์เฉพาะใน Amazon S3 และในการผลิตโฟลเดอร์ที่แตกต่างกันใน ADLS Gen2 หลังจากการปรับใช้ ปรับปรุงข้อกําหนดทางลัด OneLake ใน Lakehouse หรือใช้ Api ของ OneLake โดยตรง
สำคัญ
การปรับใช้จะแทนที่สถานะของทางลัดในพื้นที่ทํางานเป้าหมาย ทางลัดทั้งหมดในเลคเฮาส์เป้าหมายได้รับการอัปเดตหรือลบตามรัฐในเลคเฮาส์ต้นทาง ทางลัดใหม่จะถูกสร้างขึ้นในเลคเฮ้าส์เป้าหมาย คลิกที่ "ตรวจสอบการเปลี่ยนแปลง" เสมอเพื่อทําความเข้าใจการเปลี่ยนแปลงที่จะนําไปใช้ระหว่างพื้นที่ทํางานต้นทางและเป้าหมาย