การรวม Spark Job Definition Git

บทความ
05/08/2024

บทความนี้อธิบายวิธีการทํางานของการรวม Git สําหรับข้อกําหนดงาน Spark (SJD) ใน Microsoft Fabric เรียนรู้วิธีการตั้งค่าการเชื่อมต่อที่เก็บ จัดการการเปลี่ยนแปลงข้อกําหนดงาน Spark ผ่านการควบคุมแหล่งข้อมูล และปรับใช้ข้ามพื้นที่ทํางานต่าง ๆ

การเปิดใช้งานการรวม Git สําหรับข้อกําหนดงาน Spark ใน Azure DevOps ช่วยให้คุณสามารถติดตามการเปลี่ยนแปลงผ่านประวัติ git เต็มรูปแบบ ถ้าเลือก PySpark หรือ SparkR แฟ้มข้อกําหนดหลักและแฟ้มอ้างอิงจะรวมอยู่ในส่วนหนึ่งของยอมรับ การเปลี่ยนแปลงรหัสต้นทางภายในไฟล์เหล่านี้จะถูกติดตามด้วยเช่นกัน

สำคัญ

คุณลักษณะนี้อยู่ในตัวอย่าง

ตั้งค่าการเชื่อมต่อ

จากการตั้งค่าพื้นที่ทํางานของคุณ คุณสามารถตั้งค่าการเชื่อมต่อไปยัง repo ของคุณเพื่อบันทึกและซิงค์การเปลี่ยนแปลงได้อย่างง่ายดาย หากต้องการตั้งค่าการเชื่อมต่อ โปรดดูบทความ เริ่มต้นใช้งานการรวม Git เมื่อเชื่อมต่อแล้ว รายการของคุณ เช่น ข้อกําหนดงาน Spark จะปรากฏในแผงควบคุมแหล่งข้อมูล

เมื่อคุณยืนยันข้อกําหนดงาน Spark ไปยังที่เก็บ Git โครงสร้างโฟลเดอร์ข้อกําหนดงานจะปรากฏในที่เก็บ

การแสดงข้อกําหนดของงาน Spark ใน Git

รูปต่อไปนี้เป็นตัวอย่างของโครงสร้างไฟล์ของแต่ละรายการข้อกําหนดงาน Spark ใน repo:

เมื่อคุณบันทึกรายการข้อกําหนดงาน Spark ไปยัง repo โฟลเดอร์ git จะถูกสร้างขึ้นสําหรับแต่ละหน่วยข้อมูล และตั้งชื่อตาม schema นี้: <ชื่อ> รายการ + "SparkJobDefinition" อย่าเปลี่ยนชื่อโฟลเดอร์เนื่องจากถูกใช้เพื่อติดตามรายการในพื้นที่ทํางาน ตัวอย่างเช่น ถ้าชื่อรายการคือ "sjd1" ชื่อโฟลเดอร์ git จะเป็น "sjd1SparkJobDefinition"

มีโฟลเดอร์ย่อยสองโฟลเดอร์ภายในโฟลเดอร์ git ทั้งเป็นข้อมูลหลักและการอ้างอิง โฟลเดอร์ หลัก ประกอบด้วยแฟ้มข้อกําหนดหลักและ โฟลเดอร์การอ้างอิง ประกอบด้วยไฟล์อ้างอิง

นอกจากไฟล์หลักและไฟล์อ้างอิงแล้ว ยังมี ไฟล์ SparkJobDefinitionV1.json อีกด้วย ซึ่งมีเมตาดาต้าสําหรับรายการข้อกําหนดงาน Spark ดังนั้นอย่าปรับเปลี่ยน ไฟล์ .platform ประกอบด้วยข้อมูลแพลตฟอร์มที่เกี่ยวข้องกับการตั้งค่า> Git ซึ่งไม่ควรถูกปรับเปลี่ยนเช่นกัน

หมายเหตุ

หากคุณเลือก Java หรือ Scala เป็นภาษา ไฟล์หลักและไฟล์อ้างอิงจะไม่ถูกบันทึกเมื่ออัปโหลดเป็นไฟล์.jar
สภาพแวดล้อมที่แนบมายังคงอยู่ในข้อกําหนดงาน Spark หลังจากการซิงค์จากที่เก็บกับพื้นที่ทํางาน Fabric ในขณะนี้ ยังไม่รองรับสภาพแวดล้อมการอ้างอิงข้ามพื้นที่ทํางาน คุณต้องแนบกับสภาพแวดล้อมใหม่ด้วยตนเอง หรือใช้การตั้งค่าเริ่มต้นของพื้นที่ทํางานเพื่อเรียกใช้ข้อกําหนดงาน
ข้อกําหนดงาน Spark ยังคงเป็น ID ของ lakehouse ค่าเริ่มต้นเมื่อซิงค์จากที่เก็บไปยังพื้นที่ทํางาน Fabric ถ้าคุณบันทึกสมุดบันทึกที่มี lakehouse ค่าเริ่มต้นคุณจะต้องอ้างอิงรายการ lakehouse ที่สร้างขึ้นใหม่ด้วยตนเอง สําหรับข้อมูลเพิ่มเติม ดู การรวมของ Lakehouse Git

บทนําสู่การรวม Git

แชร์ผ่าน

การรวม Spark Job Definition Git

ตั้งค่าการเชื่อมต่อ

การแสดงข้อกําหนดของงาน Spark ใน Git

คำติชม

แหล่งทรัพยากรเพิ่มเติม

แชร์ผ่าน

การรวม Spark Job Definition Git

ตั้งค่าการเชื่อมต่อ

การแสดงข้อกําหนดของงาน Spark ใน Git

เนื้อหาที่เกี่ยวข้อง

คำติชม

แหล่งทรัพยากรเพิ่มเติม