ย้ายข้อกําหนดงาน Spark จาก Azure Synapse ไปยัง Fabric
เมื่อต้องการย้ายข้อกําหนดงาน Spark (SJD) จาก Azure Synapse ไปยัง Fabric คุณมีสองตัวเลือกที่แตกต่างกัน:
- ตัวเลือกที่ 1: สร้างข้อกําหนดงาน Spark ด้วยตนเองใน Fabric
- ตัวเลือกที่ 2: คุณสามารถใช้สคริปต์เพื่อส่งออกข้อกําหนดงาน Spark จาก Azure Synapse และนําเข้าใน Fabric โดยใช้ API
สําหรับข้อควรพิจารณาของข้อกําหนดงาน Spark โปรดดูความแตกต่างระหว่าง Azure Synapse Spark และ Fabric
ข้อกำหนดเบื้องต้น
ถ้าคุณยังไม่มี พื้นที่ทํางาน Fabric ในผู้เช่าของคุณ
ตัวเลือกที่ 1: สร้างข้อกําหนดงาน Spark ด้วยตนเอง
เมื่อต้องการส่งออกข้อกําหนดงาน Spark จาก Azure Synapse:
- เปิด Synapse Studio: ลงชื่อเข้าใช้ Azure นําทางไปยังพื้นที่ทํางาน Azure Synapse ของคุณและเปิด Synapse Studio
- ค้นหาตําแหน่งงาน Python/Scala/R Spark: ค้นหาและระบุข้อกําหนดงาน Python/Scala/R Spark ที่คุณต้องการโยกย้าย
-
ส่งออกการกําหนดค่าข้อกําหนดงาน:
- ใน Synapse Studio ให้เปิด ข้อกําหนดงาน Spark
- ส่งออกหรือจดบันทึกการตั้งค่าการกําหนดค่า รวมถึงตําแหน่งไฟล์สคริปต์ การขึ้นต่อกัน พารามิเตอร์ และรายละเอียดอื่น ๆ ที่เกี่ยวข้อง
เพื่อสร้างข้อกําหนดงาน Spark (SJD) ใหม่โดยยึดตามข้อมูล SJD ที่ส่งออกใน Fabric:
- เข้าถึงพื้นที่ทํางาน Fabric: ลงชื่อเข้าใช้ Fabric และเข้าถึงพื้นที่ทํางานของคุณ
-
สร้างข้อกําหนดงาน Spark ใหม่ใน Fabric:
- ใน Fabric ไปที่วิศวกรข้อมูลหน้าแรก
- เลือก ข้อกําหนดงาน Spark
- กําหนดค่างานโดยใช้ข้อมูลที่คุณส่งออกจาก Synapse รวมถึงตําแหน่งที่ตั้งสคริปต์ การอ้างอิง พารามิเตอร์ และการตั้งค่าคลัสเตอร์
- ปรับและทดสอบ: ปรับตัวที่จําเป็นกับสคริปต์หรือการกําหนดค่าเพื่อให้เหมาะสมกับสภาพแวดล้อม Fabric ทดสอบงานใน Fabric เพื่อให้แน่ใจว่าทํางานได้อย่างถูกต้อง
เมื่อสร้างข้อกําหนดงาน Spark ให้ตรวจสอบการขึ้นต่อกัน:
- ตรวจสอบให้แน่ใจว่าใช้ Spark เวอร์ชันเดียวกัน
- ตรวจสอบความถูกต้องของการมีอยู่ของไฟล์คํานิยามหลัก
- ตรวจสอบความถูกต้องของการมีอยู่ของไฟล์อ้างอิง การขึ้นต่อกัน และทรัพยากร
- บริการที่เชื่อมโยง การเชื่อมต่อแหล่งข้อมูล และจุดต่อเชื่อม
เรียนรู้เพิ่มเติมเกี่ยวกับวิธีการ สร้างข้อกําหนด งาน Apache Spark ใน Fabric
ตัวเลือกที่ 2: ใช้ Fabric API
ทําตามขั้นตอนหลักเหล่านี้สําหรับการโยกย้าย:
- ข้อกําหนดเบื้องต้น
- ขั้นตอนที่ 1: ส่งออกข้อกําหนดงาน Spark จาก Azure Synapse ไปยัง OneLake (.json)
- ขั้นตอนที่ 2: นําเข้าข้อกําหนดงาน Spark โดยอัตโนมัติลงใน Fabric โดยใช้ Fabric API
ข้อกำหนดเบื้องต้น
ข้อกําหนดเบื้องต้นรวมถึงการดําเนินการที่คุณต้องพิจารณาก่อนที่จะเริ่มการโยกย้ายข้อกําหนดงาน Spark ไปยัง Fabric
- พื้นที่ทํางานของ Fabric
- ถ้าคุณยังไม่มี ให้ สร้าง Fabric lakehouse ในพื้นที่ทํางานของคุณ
ขั้นตอนที่ 1: ส่งออกข้อกําหนดงาน Spark จากพื้นที่ทํางาน Azure Synapse
จุดมุ่งเน้นของขั้นตอนที่ 1 คือการส่งออกข้อกําหนดงาน Spark จากพื้นที่ทํางาน Azure Synapse ไปยัง OneLake ในรูปแบบ json กระบวนการนี้มีดังนี้:
- 1.1) นําเข้าสมุดบันทึกการโยกย้าย SJD ไปยังพื้นที่ทํางานของ Fabric สมุดบันทึก นี้ส่งออกข้อกําหนดงาน Spark ทั้งหมดจากพื้นที่ทํางาน Azure Synapse ที่กําหนดไปยังไดเรกทอรีระดับกลางใน OneLake Synapse API ถูกใช้เพื่อส่งออก SJD
- 1.2) กําหนดค่าพารามิเตอร์ ในคําสั่งแรกเพื่อส่งออกข้อกําหนดงาน Spark ไปยังที่เก็บข้อมูลระดับกลาง (OneLake) ส่งออกเฉพาะไฟล์เมตาดาต้า json เท่านั้น ส่วนย่อยต่อไปนี้ถูกใช้เพื่อกําหนดค่าพารามิเตอร์ต้นทางและปลายทาง ตรวจสอบให้แน่ใจว่าได้แทนที่ด้วยค่าของคุณเอง
# Azure config
azure_client_id = "<client_id>"
azure_tenant_id = "<tenant_id>"
azure_client_secret = "<client_secret>"
# Azure Synapse workspace config
synapse_workspace_name = "<synapse_workspace_name>"
# Fabric config
workspace_id = "<workspace_id>"
lakehouse_id = "<lakehouse_id>"
export_folder_name = f"export/{synapse_workspace_name}"
prefix = "" # this prefix is used during import {prefix}{sjd_name}
output_folder = f"abfss://{workspace_id}@onelake.dfs.fabric.microsoft.com/{lakehouse_id}/Files/{export_folder_name}"
- 1.3) เรียกใช้สองเซลล์ แรกของการส่งออก/นําเข้าสมุดบันทึกเพื่อส่งออกเมตาดาต้าข้อกําหนดงาน Spark ไปยัง OneLake เมื่อเซลล์เสร็จสมบูรณ์ โครงสร้างโฟลเดอร์นี้ภายใต้ไดเรกทอรีผลลัพธ์ระดับกลางจะถูกสร้างขึ้น
ขั้นตอนที่ 2: นําเข้าข้อกําหนดงาน Spark ลงใน Fabric
ขั้นตอนที่ 2 คือเมื่อมีการนําเข้าข้อกําหนดงาน Spark จากที่เก็บข้อมูลระดับกลางลงในพื้นที่ทํางาน Fabric กระบวนการนี้มีดังนี้:
- 2.1) ตรวจสอบการกําหนดค่า ใน 1.2 เพื่อให้แน่ใจว่ามีการระบุพื้นที่ทํางานและคํานําหน้าที่ถูกต้องเพื่อนําเข้าข้อกําหนดงาน Spark
- 2.2) เรียกใช้เซลล์ ที่สามของสมุดบันทึกส่งออก/นําเข้าเพื่อนําเข้าข้อกําหนดงาน Spark ทั้งหมดจากตําแหน่งที่ตั้งระดับกลาง
หมายเหตุ
ตัวเลือกการส่งออกส่งออกไฟล์เมตาดาต้า json ตรวจสอบให้แน่ใจว่าไฟล์ปฏิบัติการข้อกําหนดงาน Spark ไฟล์อ้างอิง และอาร์กิวเมนต์สามารถเข้าถึงได้จาก Fabric