แชร์ผ่าน


ย้ายข้อกําหนดงาน Spark จาก Azure Synapse ไปยัง Fabric

เมื่อต้องการย้ายข้อกําหนดงาน Spark (SJD) จาก Azure Synapse ไปยัง Fabric คุณมีสองตัวเลือกที่แตกต่างกัน:

  • ตัวเลือกที่ 1: สร้างข้อกําหนดงาน Spark ด้วยตนเองใน Fabric
  • ตัวเลือกที่ 2: คุณสามารถใช้สคริปต์เพื่อส่งออกข้อกําหนดงาน Spark จาก Azure Synapse และนําเข้าใน Fabric โดยใช้ API

สําหรับข้อควรพิจารณาของข้อกําหนดงาน Spark โปรดดูความแตกต่างระหว่าง Azure Synapse Spark และ Fabric

ข้อกำหนดเบื้องต้น

ถ้าคุณยังไม่มี พื้นที่ทํางาน Fabric ในผู้เช่าของคุณ

ตัวเลือกที่ 1: สร้างข้อกําหนดงาน Spark ด้วยตนเอง

เมื่อต้องการส่งออกข้อกําหนดงาน Spark จาก Azure Synapse:

  1. เปิด Synapse Studio: ลงชื่อเข้าใช้ Azure นําทางไปยังพื้นที่ทํางาน Azure Synapse ของคุณและเปิด Synapse Studio
  2. ค้นหาตําแหน่งงาน Python/Scala/R Spark: ค้นหาและระบุข้อกําหนดงาน Python/Scala/R Spark ที่คุณต้องการโยกย้าย
  3. ส่งออกการกําหนดค่าข้อกําหนดงาน:
    • ใน Synapse Studio ให้เปิด ข้อกําหนดงาน Spark
    • ส่งออกหรือจดบันทึกการตั้งค่าการกําหนดค่า รวมถึงตําแหน่งไฟล์สคริปต์ การขึ้นต่อกัน พารามิเตอร์ และรายละเอียดอื่น ๆ ที่เกี่ยวข้อง

เพื่อสร้างข้อกําหนดงาน Spark (SJD) ใหม่โดยยึดตามข้อมูล SJD ที่ส่งออกใน Fabric:

  1. เข้าถึงพื้นที่ทํางาน Fabric: ลงชื่อเข้าใช้ Fabric และเข้าถึงพื้นที่ทํางานของคุณ
  2. สร้างข้อกําหนดงาน Spark ใหม่ใน Fabric:
    • ใน Fabric ไปที่วิศวกรข้อมูลหน้าแรก
    • เลือก ข้อกําหนดงาน Spark
    • กําหนดค่างานโดยใช้ข้อมูลที่คุณส่งออกจาก Synapse รวมถึงตําแหน่งที่ตั้งสคริปต์ การอ้างอิง พารามิเตอร์ และการตั้งค่าคลัสเตอร์
  3. ปรับและทดสอบ: ปรับตัวที่จําเป็นกับสคริปต์หรือการกําหนดค่าเพื่อให้เหมาะสมกับสภาพแวดล้อม Fabric ทดสอบงานใน Fabric เพื่อให้แน่ใจว่าทํางานได้อย่างถูกต้อง

สกรีนช็อตที่แสดงการสร้างข้อกําหนดงาน Spark

เมื่อสร้างข้อกําหนดงาน Spark ให้ตรวจสอบการขึ้นต่อกัน:

  • ตรวจสอบให้แน่ใจว่าใช้ Spark เวอร์ชันเดียวกัน
  • ตรวจสอบความถูกต้องของการมีอยู่ของไฟล์คํานิยามหลัก
  • ตรวจสอบความถูกต้องของการมีอยู่ของไฟล์อ้างอิง การขึ้นต่อกัน และทรัพยากร
  • บริการที่เชื่อมโยง การเชื่อมต่อแหล่งข้อมูล และจุดต่อเชื่อม

เรียนรู้เพิ่มเติมเกี่ยวกับวิธีการ สร้างข้อกําหนด งาน Apache Spark ใน Fabric

ตัวเลือกที่ 2: ใช้ Fabric API

ทําตามขั้นตอนหลักเหล่านี้สําหรับการโยกย้าย:

  • ข้อกําหนดเบื้องต้น
  • ขั้นตอนที่ 1: ส่งออกข้อกําหนดงาน Spark จาก Azure Synapse ไปยัง OneLake (.json)
  • ขั้นตอนที่ 2: นําเข้าข้อกําหนดงาน Spark โดยอัตโนมัติลงใน Fabric โดยใช้ Fabric API

ข้อกำหนดเบื้องต้น

ข้อกําหนดเบื้องต้นรวมถึงการดําเนินการที่คุณต้องพิจารณาก่อนที่จะเริ่มการโยกย้ายข้อกําหนดงาน Spark ไปยัง Fabric

  • พื้นที่ทํางานของ Fabric
  • ถ้าคุณยังไม่มี ให้ สร้าง Fabric lakehouse ในพื้นที่ทํางานของคุณ

ขั้นตอนที่ 1: ส่งออกข้อกําหนดงาน Spark จากพื้นที่ทํางาน Azure Synapse

จุดมุ่งเน้นของขั้นตอนที่ 1 คือการส่งออกข้อกําหนดงาน Spark จากพื้นที่ทํางาน Azure Synapse ไปยัง OneLake ในรูปแบบ json กระบวนการนี้มีดังนี้:

  • 1.1) นําเข้าสมุดบันทึกการโยกย้าย SJD ไปยังพื้นที่ทํางานของ Fabric สมุดบันทึก นี้ส่งออกข้อกําหนดงาน Spark ทั้งหมดจากพื้นที่ทํางาน Azure Synapse ที่กําหนดไปยังไดเรกทอรีระดับกลางใน OneLake Synapse API ถูกใช้เพื่อส่งออก SJD
  • 1.2) กําหนดค่าพารามิเตอร์ ในคําสั่งแรกเพื่อส่งออกข้อกําหนดงาน Spark ไปยังที่เก็บข้อมูลระดับกลาง (OneLake) ส่งออกเฉพาะไฟล์เมตาดาต้า json เท่านั้น ส่วนย่อยต่อไปนี้ถูกใช้เพื่อกําหนดค่าพารามิเตอร์ต้นทางและปลายทาง ตรวจสอบให้แน่ใจว่าได้แทนที่ด้วยค่าของคุณเอง
# Azure config
azure_client_id = "<client_id>"
azure_tenant_id = "<tenant_id>"
azure_client_secret = "<client_secret>"

# Azure Synapse workspace config
synapse_workspace_name = "<synapse_workspace_name>"

# Fabric config
workspace_id = "<workspace_id>"
lakehouse_id = "<lakehouse_id>"
export_folder_name = f"export/{synapse_workspace_name}"
prefix = "" # this prefix is used during import {prefix}{sjd_name}

output_folder = f"abfss://{workspace_id}@onelake.dfs.fabric.microsoft.com/{lakehouse_id}/Files/{export_folder_name}"
  • 1.3) เรียกใช้สองเซลล์ แรกของการส่งออก/นําเข้าสมุดบันทึกเพื่อส่งออกเมตาดาต้าข้อกําหนดงาน Spark ไปยัง OneLake เมื่อเซลล์เสร็จสมบูรณ์ โครงสร้างโฟลเดอร์นี้ภายใต้ไดเรกทอรีผลลัพธ์ระดับกลางจะถูกสร้างขึ้น

สกรีนช็อตที่แสดงการส่งออกข้อกําหนดงาน Spark ใน OneLake

ขั้นตอนที่ 2: นําเข้าข้อกําหนดงาน Spark ลงใน Fabric

ขั้นตอนที่ 2 คือเมื่อมีการนําเข้าข้อกําหนดงาน Spark จากที่เก็บข้อมูลระดับกลางลงในพื้นที่ทํางาน Fabric กระบวนการนี้มีดังนี้:

  • 2.1) ตรวจสอบการกําหนดค่า ใน 1.2 เพื่อให้แน่ใจว่ามีการระบุพื้นที่ทํางานและคํานําหน้าที่ถูกต้องเพื่อนําเข้าข้อกําหนดงาน Spark
  • 2.2) เรียกใช้เซลล์ ที่สามของสมุดบันทึกส่งออก/นําเข้าเพื่อนําเข้าข้อกําหนดงาน Spark ทั้งหมดจากตําแหน่งที่ตั้งระดับกลาง

หมายเหตุ

ตัวเลือกการส่งออกส่งออกไฟล์เมตาดาต้า json ตรวจสอบให้แน่ใจว่าไฟล์ปฏิบัติการข้อกําหนดงาน Spark ไฟล์อ้างอิง และอาร์กิวเมนต์สามารถเข้าถึงได้จาก Fabric