การรวม Spark Job Definition Git
บทความนี้อธิบายวิธีการทํางานของการรวม Git สําหรับข้อกําหนดงาน Spark (SJD) ใน Microsoft Fabric เรียนรู้วิธีการตั้งค่าการเชื่อมต่อที่เก็บ จัดการการเปลี่ยนแปลงข้อกําหนดงาน Spark ผ่านการควบคุมแหล่งข้อมูล และปรับใช้ข้ามพื้นที่ทํางานต่าง ๆ
การเปิดใช้งานการรวม Git สําหรับข้อกําหนดงาน Spark ใน Azure DevOps ช่วยให้คุณสามารถติดตามการเปลี่ยนแปลงผ่านประวัติ git เต็มรูปแบบ ถ้าเลือก PySpark หรือ SparkR แฟ้มข้อกําหนดหลักและแฟ้มอ้างอิงจะรวมอยู่ในส่วนหนึ่งของยอมรับ การเปลี่ยนแปลงรหัสต้นทางภายในไฟล์เหล่านี้จะถูกติดตามด้วยเช่นกัน
สำคัญ
คุณลักษณะนี้อยู่ในตัวอย่าง
ตั้งค่าการเชื่อมต่อ
จากการตั้งค่าพื้นที่ทํางานของคุณ คุณสามารถตั้งค่าการเชื่อมต่อไปยัง repo ของคุณเพื่อบันทึกและซิงค์การเปลี่ยนแปลงได้อย่างง่ายดาย หากต้องการตั้งค่าการเชื่อมต่อ โปรดดูบทความ เริ่มต้นใช้งานการรวม Git เมื่อเชื่อมต่อแล้ว รายการของคุณ เช่น ข้อกําหนดงาน Spark จะปรากฏในแผงควบคุมแหล่งข้อมูล
เมื่อคุณยืนยันข้อกําหนดงาน Spark ไปยังที่เก็บ Git โครงสร้างโฟลเดอร์ข้อกําหนดงานจะปรากฏในที่เก็บ
การแสดงข้อกําหนดของงาน Spark ใน Git
รูปต่อไปนี้เป็นตัวอย่างของโครงสร้างไฟล์ของแต่ละรายการข้อกําหนดงาน Spark ใน repo:
เมื่อคุณบันทึกรายการข้อกําหนดงาน Spark ไปยัง repo โฟลเดอร์ git จะถูกสร้างขึ้นสําหรับแต่ละหน่วยข้อมูล และตั้งชื่อตาม schema นี้: <ชื่อ> รายการ + "SparkJobDefinition" อย่าเปลี่ยนชื่อโฟลเดอร์เนื่องจากถูกใช้เพื่อติดตามรายการในพื้นที่ทํางาน ตัวอย่างเช่น ถ้าชื่อรายการคือ "sjd1" ชื่อโฟลเดอร์ git จะเป็น "sjd1SparkJobDefinition"
มีโฟลเดอร์ย่อยสองโฟลเดอร์ภายในโฟลเดอร์ git ทั้งเป็นข้อมูลหลักและการอ้างอิง โฟลเดอร์ หลัก ประกอบด้วยแฟ้มข้อกําหนดหลักและ โฟลเดอร์การอ้างอิง ประกอบด้วยไฟล์อ้างอิง
นอกจากไฟล์หลักและไฟล์อ้างอิงแล้ว ยังมี ไฟล์ SparkJobDefinitionV1.json อีกด้วย ซึ่งมีเมตาดาต้าสําหรับรายการข้อกําหนดงาน Spark ดังนั้นอย่าปรับเปลี่ยน ไฟล์ .platform ประกอบด้วยข้อมูลแพลตฟอร์มที่เกี่ยวข้องกับการตั้งค่า> Git ซึ่งไม่ควรถูกปรับเปลี่ยนเช่นกัน
หมายเหตุ
- หากคุณเลือก Java หรือ Scala เป็นภาษา ไฟล์หลักและไฟล์อ้างอิงจะไม่ถูกบันทึกเมื่ออัปโหลดเป็นไฟล์.jar
- สภาพแวดล้อมที่แนบมายังคงอยู่ในข้อกําหนดงาน Spark หลังจากการซิงค์จากที่เก็บกับพื้นที่ทํางาน Fabric ในขณะนี้ ยังไม่รองรับสภาพแวดล้อมการอ้างอิงข้ามพื้นที่ทํางาน คุณต้องแนบกับสภาพแวดล้อมใหม่ด้วยตนเอง หรือใช้การตั้งค่าเริ่มต้นของพื้นที่ทํางานเพื่อเรียกใช้ข้อกําหนดงาน
- ข้อกําหนดงาน Spark ยังคงเป็น ID ของ lakehouse ค่าเริ่มต้นเมื่อซิงค์จากที่เก็บไปยังพื้นที่ทํางาน Fabric ถ้าคุณบันทึกสมุดบันทึกที่มี lakehouse ค่าเริ่มต้นคุณจะต้องอ้างอิงรายการ lakehouse ที่สร้างขึ้นใหม่ด้วยตนเอง สําหรับข้อมูลเพิ่มเติม ดู การรวมของ Lakehouse Git