แชร์ผ่าน


เปรียบเทียบ Fabric วิศวกรข้อมูล ing และ Azure Synapse Spark

การเปรียบเทียบระหว่าง Fabric วิศวกรข้อมูล ing และ Azure Synapse Spark ให้ข้อมูลสรุปเกี่ยวกับคุณลักษณะหลักและการวิเคราะห์เชิงลึกในประเภทต่าง ๆ ซึ่งรวมถึงพูล Spark การกําหนดค่า ไลบรารี สมุดบันทึก และข้อกําหนดงาน Spark

ตารางต่อไปนี้เปรียบเทียบ Azure Synapse Spark และ Fabric Spark ในประเภทต่างๆ:

หมวดหมู่ Azure Synapse Spark Fabric Spark
สระว่ายน้ํา Spark สระว่ายน้ํา Spark
-
-
กลุ่ม / เริ่มต้น พูลแบบกําหนดเอง
สั่งซื้อ V
ภาวะพร้อมกันสูง
การกําหนดค่า Spark ระดับสระว่ายน้ํา
ระดับข้อกําหนดงานสมุดบันทึกหรือ Spark
ระดับสภาพแวดล้อม
ระดับข้อกําหนดงานสมุดบันทึกหรือ Spark
ไลบรารี Spark แพคเกจระดับพื้นที่ทํางาน
แพคเกจระดับพูล
แพคเกจแบบอินไลน์
-
ไลบรารีสภาพแวดล้อม
ไลบรารีแบบอินไลน์
แหล่งข้อมูล Notebook (Python, Scala, Spark SQL, R, .NET)
ข้อกําหนดงาน Spark (Python, Scala, .NET)
ไปป์ไลน์ข้อมูล Synapse
กิจกรรมไปป์ไลน์ (สมุดบันทึก SJD)
Notebook (Python, Scala, Spark SQL, R)
ข้อกําหนด งาน Spark (Python, Scala, R)
Data Factory data pipelines
กิจกรรม ไปป์ไลน์ (สมุดบันทึก SJD)
ข้อมูล พื้นที่เก็บข้อมูลหลัก (ADLS Gen2)
ที่อยู่ข้อมูล (โดยอ้างอิงตามคลัสเตอร์/ภูมิภาค)
ที่เก็บข้อมูลหลัก (OneLake)
ที่อยู่ข้อมูล (ตามความจุ/ภูมิภาค)
เมตาดาต้า Hive Metastore ภายใน (HMS)
HMS ภายนอก (โดยใช้ Azure SQL DB)
HMS ภายใน (เลคเฮ้าส์)
-
การเชื่อมต่อ ชนิดของตัวเชื่อมต่อ (บริการที่เชื่อมโยง)
แหล่งข้อมูล
Conn แหล่งข้อมูล ด้วยข้อมูลประจําตัวของพื้นที่ทํางาน
ชนิดของตัวเชื่อมต่อ (DMTS)
แหล่งข้อมูล
-
ความปลอดภัย RBAC และการควบคุมการเข้าถึง
ACL ที่เก็บข้อมูล (ADLS Gen2)
ลิงก์ส่วนตัว
VNet ที่มีการจัดการ (การแยกเครือข่าย)
Synapse workspace identity
การป้องกันการแทรกซึมของข้อมูล (DEP)
แท็กบริการ
ชุดเก็บคีย์ (ผ่าน mssparkutils/บริการที่เชื่อมโยง)
RBAC และการควบคุมการเข้าถึง
OneLake RBAC
ลิงก์ส่วนตัว
VNet ที่มีการจัดการ
ข้อมูลประจําตัวของพื้นที่ทํางาน
-
แท็กบริการ
ชุดเก็บคีย์ (ผ่าน mssparkutils)
DevOps การรวม Azure DevOps
CI/CD (ไม่มีการสนับสนุนในตัว)
การรวม Azure DevOps
ไปป์ไลน์การปรับใช้
ประสบการณ์นักพัฒนา การรวม IDE (IntelliJ)
Synapse Studio UI
การทํางานร่วมกัน (พื้นที่ทํางาน)
Livy API
API/SDK
mssparkutils
การรวม IDE (รหัส VS)
UI ของผ้า
การทํางานร่วมกัน (พื้นที่ทํางานและการแชร์)
-
API/SDK
mssparkutils
การบันทึกและการตรวจสอบ Spark Advisor
พูลและงานการตรวจสอบที่มีอยู่ภายใน (ผ่าน Synapse Studio)
เซิร์ฟเวอร์ประวัติ Spark
Prometheus/Grafana
การวิเคราะห์รายการบันทึก
บัญชีที่เก็บข้อมูล
ฮับเหตุการณ์
Spark Advisor
พูลและงานการตรวจสอบที่มีอยู่ภายใน (ผ่าน ฮับการตรวจสอบ)
เซิร์ฟเวอร์ประวัติ Spark
-
-
-
-
ความต่อเนื่องทางธุรกิจและการกู้คืนจากภัยพิบัติ (BCDR) BCDR (ข้อมูล) ADLS Gen2 BCDR (ข้อมูล) OneLake

ข้อควรพิจารณาและข้อจํากัด:

  • การรวม DMTS: คุณไม่สามารถใช้ DMTS ผ่านสมุดบันทึกและข้อกําหนดงาน Spark ได้

  • ระดับปริมาณงาน RBAC: Fabric สนับสนุนสี่บทบาทพื้นที่ทํางานที่แตกต่างกัน สําหรับข้อมูลเพิ่มเติม โปรดดู บทบาทในพื้นที่ทํางานใน Microsoft Fabric

  • ข้อมูลประจําตัวที่มีการจัดการ: ในขณะนี้ Fabric ไม่สนับสนุนการเรียกใช้สมุดบันทึกและข้อกําหนดงาน Spark โดยใช้ข้อมูลประจําตัวของพื้นที่ทํางานหรือข้อมูลประจําตัวที่มีการจัดการสําหรับ Azure KeyVault ในสมุดบันทึก

  • CI/CD: คุณสามารถใช้ Fabric API/SDK และ ไปป์ไลน์การปรับใช้ได้

  • Livy API และวิธีส่งและจัดการงาน Spark: Livy API อยู่ในโรดแมป แต่ยังไม่แสดงใน Fabric คุณต้องสร้างสมุดบันทึกและข้อกําหนดงาน Spark ด้วย Fabric UI

  • บันทึก Spark และเมตริก: ใน Azure Synapse คุณสามารถปล่อยบันทึก Spark และเมตริกไปยังที่เก็บข้อมูลของคุณเอง เช่น Log Analytics, blob และ Event Hubs ได้ คุณยังสามารถรับรายการของแอปพลิเคชัน Spark สําหรับพื้นที่ทํางานจาก API ได้ ในขณะนี้ ความสามารถทั้งสองอย่างนี้ยังไม่มีใน Fabric

  • ข้อควรพิจารณาอื่น ๆ:

    • JDBC: ขณะนี้การสนับสนุนการเชื่อมต่อ JDBC ไม่พร้อมใช้งานใน Fabric

การเปรียบเทียบ Spark pool

ตารางต่อไปนี้เปรียบเทียบพูล Azure Synapse Spark และ Fabric Spark

การตั้งค่า Spark Azure Synapse Spark Fabric Spark
พูลสด (อินสแตนซ์ก่อนอบอุ่น) - ใช่ กลุ่มเริ่มต้น
กลุ่มที่กําหนดเอง ใช่ ใช่
เวอร์ชัน Spark (รันไทม์) 2.4, 3.1, 3.2, 3.3, 3.4 3.3, 3.4, 3.5
ปรับขนาดอัตโนมัติ ใช่ ใช่
การจัดสรรแบบไดนามิกของตัวดําเนินการ ใช่ สูงสุด 200 ใช่ ขึ้นอยู่กับความจุ
ขนาดโหนดที่ปรับขนาดได้ ใช่, 3-200 ใช่, 1 ตามความจุ
การกําหนดค่าโหนดต่ําสุด โหนด 3 โหนด 1 โหนด
ตระกูลขนาดโหนด ปรับหน่วยความจําให้เหมาะสม แล้วเร่ง GPU ปรับหน่วยความจําให้เหมาะสมแล้ว
ขนาดโหนด Small-XXXLarge Small-XXLarge
การลงรายการอัตโนมัติ ใช่ สามารถปรับแต่งได้อย่างน้อย 5 นาที ใช่, ไม่กําหนด 2 นาที
ภาวะพร้อมกันสูง ไม่ใช่ ใช่
สั่งซื้อ V ไม่ใช่ ใช่
Spark autotune ไม่ใช่ ใช่
กลไกการดําเนินการแบบดั้งเดิม ไม่ใช่ ใช่
ขีดจํากัดภาวะพร้อมกัน ตายตัว ตัวแปรขึ้นอยู่กับความจุ
สระว่ายน้ําแบบหลายประกาย ใช่ ใช่ (สภาพแวดล้อม)
แคชอัจฉริยะ ใช่ ใช่
การสนับสนุน API/SDK ใช่ ใช่
  • รันไทม์: Fabric ไม่รองรับเวอร์ชัน Spark 2.4, 3.1 และ 3.2 Fabric Spark สนับสนุน Spark 3.3 ด้วย Delta 2.2 ภายใน Runtime 1.1, Spark 3.4 พร้อม Delta 2.4 ภายใน Runtime 1.2 และ Spark 3.5 พร้อม Delta 3.1 ภายใน Runtime 1.3

  • การปรับขนาดอัตโนมัติ: ใน Azure Synapse Spark พูลสามารถปรับขนาดโหนดได้สูงสุด 200 โหนดโดยไม่คํานึงถึงขนาดของโหนด ใน Fabric จํานวนโหนดสูงสุดจะขึ้นอยู่กับขนาดโหนดและความจุที่จัดเตรียมไว้ ดูตัวอย่างต่อไปนี้สําหรับ F64 SKU

    ขนาดสระว่ายน้ํา Spark Azure Synapse Spark Fabric Spark (Custom Pool, SKU F64)
    เล็ก ต่ําสุด: 3, สูงสุด: 200 ต่ําสุด: 1, สูงสุด: 32
    กลาง ต่ําสุด: 3, สูงสุด: 200 ต่ําสุด: 1, สูงสุด: 16
    ใหญ่ ต่ําสุด: 3, สูงสุด: 200 ต่ําสุด: 1, สูงสุด: 8
    X-Large ต่ําสุด: 3, สูงสุด: 200 ต่ําสุด: 1, สูงสุด: 4
    XX-ขนาดใหญ่ ต่ําสุด: 3, สูงสุด: 200 ต่ําสุด: 1, สูงสุด: 2
  • ขนาดโหนดที่ปรับขนาดได้: ใน Azure Synapse Spark คุณสามารถไปยังโหนดได้สูงสุด 200 โหนด ใน Fabric จํานวนโหนดที่คุณสามารถมีได้ในกลุ่ม Spark แบบกําหนดเองของคุณขึ้นอยู่กับขนาดโหนดและความจุ Fabric ของคุณ ความจุคือการวัดกําลังการประมวลผลที่คุณสามารถใช้ใน Azure ได้ วิธีหนึ่งในการคิดก็คือ Spark vCores สองตัว (หน่วยของกําลังการประมวลผลสําหรับ Spark) เท่ากับหน่วยความจุหนึ่งหน่วย ตัวอย่างเช่น Fabric Capacity SKU F64 มีหน่วยความจุ 64 หน่วย ซึ่งเทียบเท่ากับ 128 Spark VCores ดังนั้นหากคุณเลือกขนาดโหนดขนาดเล็กคุณสามารถมีโหนดได้สูงสุด 32 โหนดในพูลของคุณ (128/4 = 32) จากนั้น ผลรวมของ vCores ในความจุ/vCores ต่อขนาดโหนด = จํานวนรวมของโหนดที่พร้อมใช้งาน สําหรับข้อมูลเพิ่มเติม ดู การคํานวณ Spark

  • กลุ่มขนาดโหนด: กลุ่ม Fabric Spark รองรับ เฉพาะกลุ่มขนาด โหนดที่ปรับให้เหมาะสมกับหน่วยความจําเท่านั้นสําหรับตอนนี้ หากคุณกําลังใช้พูล SKU Spark ที่เร่ง GPU ใน Azure Synapse จะไม่มีใน Fabric

  • ขนาดโหนด: ขนาดโหนด xx ขนาดใหญ่มาพร้อมกับหน่วยความจํา 432 GB ใน Azure Synapse ในขณะที่ขนาดโหนดเดียวกันมี 512 GB ใน Fabric รวมถึง 64 vCores ส่วนที่เหลือของขนาดโหนด (เล็กผ่าน x ขนาดใหญ่) มี vCores และหน่วยความจําเดียวกันทั้งใน Azure Synapse และ Fabric

  • การหยุดโดยอัตโนมัติ: หากคุณเปิดใช้งานใน Azure Synapse Spark พูล Apache Spark จะหยุดชั่วคราวโดยอัตโนมัติหลังจากระยะเวลาที่ไม่ได้ใช้งานตามที่ระบุ การตั้งค่านี้สามารถกําหนดค่าได้ใน Azure Synapse (อย่างน้อย 5 นาที) แต่กลุ่มแบบกําหนดเองมี ระยะเวลาในการจ่ายเงินอัตโนมัติค่าเริ่มต้นที่ไม่สามารถกําหนดได้ 2 นาที ใน Fabric หลังจากเซสชันหมดอายุ การหมดอายุของเซสชันเริ่มต้นถูกตั้งค่าเป็น 20 นาทีใน Fabric

  • ภาวะพร้อมกันสูง: ผ้ารองรับภาวะพร้อมกันสูงในสมุดบันทึก สําหรับข้อมูลเพิ่มเติม ให้ดู โหมดการทํางานพร้อมกันสูงใน Fabric Spark

  • ข้อจํากัดของภาวะพร้อมกัน: ในแง่ของภาวะพร้อมกัน Azure Synapse Spark มีขีดจํากัดของการเรียกใช้งานพร้อมกัน 50 งานต่อกลุ่ม Spark และงานแบบมีคิว 200 งานต่อพูล Spark งานที่ใช้งานสูงสุดคือ 250 ต่อพูล Spark และ 1,000 ต่อพื้นที่ทํางาน ใน Microsoft Fabric Spark ความจุ SKU จะกําหนดขีดจํากัดภาวะพร้อมกัน SKU มีขีดจํากัดสําหรับงานที่เกิดขึ้นพร้อมกันสูงสุดในช่วงตั้งแต่ 1 ถึง 512 นอกจากนี้ Fabric Spark ยังมีระบบการควบคุมปริมาณตามการสงวนแบบไดนามิกเพื่อจัดการภาวะพร้อมกันและรับประกันการทํางานที่ราบรื่นแม้ในช่วงเวลาการใช้งานสูงสุด สําหรับข้อมูลเพิ่มเติม ดู ขีดจํากัดภาวะพร้อมกันและการจัดคิวใน Microsoft Fabric Spark และ ความจุ Fabric

  • พูล Spark หลายรายการ: ถ้าคุณต้องการมีพูล Spark หลายตัว ให้ใช้สภาพแวดล้อม Fabric เพื่อเลือกพูลโดยสมุดบันทึกหรือข้อกําหนดงาน Spark สําหรับข้อมูลเพิ่มเติม ดูสร้าง กําหนดค่า และใช้สภาพแวดล้อมใน Microsoft Fabric

หมายเหตุ

เรียนรู้วิธีการโยกย้าย Azure Synapse Spark pools ไปยัง Fabric

การเปรียบเทียบการกําหนดค่า Spark

การกําหนดค่า Spark สามารถนําไปใช้ได้ในระดับที่แตกต่างกัน:

  • ระดับสภาพแวดล้อม: การกําหนดค่าเหล่านี้จะถูกใช้เป็นการกําหนดค่าเริ่มต้นสําหรับงาน Spark ทั้งหมดในสภาพแวดล้อม
  • ระดับอินไลน์: ตั้งค่าการกําหนดค่า Spark แบบอินไลน์โดยใช้สมุดบันทึกและข้อกําหนดงาน Spark

ในขณะที่ตัวเลือกทั้งสองได้รับการสนับสนุนใน Azure Synapse Spark และ Fabric แต่ยังมีข้อควรพิจารณาบางประการ:

การกําหนดค่า Spark Azure Synapse Spark Fabric Spark
ระดับสภาพแวดล้อม ใช่ พูล ใช่ สภาพแวดล้อม
อินไลน์ ใช่ ใช่
นําเข้า/ส่งออก ใช่ ใช่ (.yml จากสภาพแวดล้อม)
การสนับสนุน API/SDK ใช่ ใช่
  • ระดับสภาพแวดล้อม: ใน Azure Synapse คุณสามารถกําหนดการกําหนดค่า Spark หลายรายการและกําหนดการกําหนดค่าเหล่านั้นให้กับพูล Spark ที่แตกต่างกันได้ คุณสามารถทําได้ใน Fabric โดยใช้สภาพแวดล้อม

  • แบบอินไลน์: ใน Azure Synapse ทั้งสมุดบันทึกและงาน Spark รองรับการแนบการกําหนดค่า Spark ที่แตกต่างกัน ใน Fabric การกําหนดค่าระดับเซสชันจะถูกปรับแต่งด้วย spark.conf.set(<conf_name>, <conf_value>) การตั้งค่า สําหรับชุดงาน คุณยังสามารถใช้การกําหนดค่าผ่าน SparkConf ได้อีกด้วย

  • นําเข้า/ส่งออก: ตัวเลือกนี้สําหรับการกําหนดค่า Spark มีให้ใช้งานในสภาพแวดล้อม Fabric

  • ข้อควรพิจารณาอื่น ๆ:

    • การกําหนดค่า Spark ที่ไม่สามารถเปลี่ยนได้: การกําหนดค่า Spark บางอย่างไม่สามารถเปลี่ยนได้ ถ้าคุณได้รับข้อความ AnalysisException: Can't modify the value of a Spark config: <config_name>คุณสมบัติในคําถามจะไม่สามารถเปลี่ยนแปลงได้
    • ตัวจัดกําหนดการ FAIR: ตัวจัดกําหนดการ FAIR ใช้ในโหมดการทํางานพร้อมกันสูง
    • V-Order: V-Order คือการเพิ่มประสิทธิภาพการเขียนเวลาสําหรับไฟล์ parquet ที่เปิดใช้งานตามค่าเริ่มต้นในพูล Fabric Spark
    • การเขียนที่ปรับให้เหมาะสม: การเขียน ที่ปรับให้เหมาะสมถูกปิดใช้งานตามค่าเริ่มต้นใน Azure Synapse แต่เปิดใช้งานตามค่าเริ่มต้นสําหรับ Fabric Spark

การเปรียบเทียบไลบรารี Spark

คุณสามารถใช้ไลบรารี Spark ได้หลายระดับ:

  • ระดับพื้นที่ทํางาน: คุณไม่สามารถอัปโหลด/ติดตั้งไลบรารีเหล่านี้ไปยังพื้นที่ทํางานของคุณ และกําหนดไลบรารีเหล่านี้ไปยังพูล Spark เฉพาะใน Azure Synapse ได้ในภายหลัง
  • ระดับสภาพแวดล้อม: คุณสามารถอัปโหลด/ติดตั้งไลบรารีไปยังสภาพแวดล้อมได้ ไลบรารีระดับสภาพแวดล้อมพร้อมใช้งานสําหรับสมุดบันทึกทั้งหมดและข้อกําหนดงาน Spark ที่ทํางานอยู่ในสภาพแวดล้อมนั้น
  • แบบอินไลน์: นอกเหนือจากไลบรารีระดับสภาพแวดล้อม คุณยังสามารถระบุไลบรารีแบบอินไลน์ได้ ตัวอย่างเช่น ที่จุดเริ่มต้นของเซสชันสมุดบันทึก

ข้อควรพิจารณา:

ไลบรารี Spark Azure Synapse Spark Fabric Spark
ระดับพื้นที่ทํางาน ใช่ ไม่ใช่
ระดับสภาพแวดล้อม ใช่ พูล ใช่ สภาพแวดล้อม
อินไลน์ ใช่ ใช่
นําเข้า/ส่งออก ใช่ ใช่
การสนับสนุน API/SDK ใช่ ใช่
  • ข้อควรพิจารณาอื่น ๆ:
    • ไลบรารีที่มีอยู่ภายใน: Fabric และ Azure Synapse แชร์แกนกลางทั่วไปของ Spark แต่อาจแตกต่างกันเล็กน้อยในการสนับสนุนไลบรารีรันไทม์ที่แตกต่างกันเล็กน้อย โดยทั่วไปแล้ว การใช้รหัสสามารถเข้ากันได้กับข้อยกเว้นบางอย่าง ในกรณีดังกล่าว ผู้ใช้อาจต้องมีการคอมไพล์ การเพิ่มไลบรารีแบบกําหนดเอง และการปรับปรุงไวยากรณ์ ดูไลบรารีรันไทม์ Fabric Spark ที่มีอยู่แล้วภายในที่นี่

หมายเหตุ

เรียนรู้วิธีการย้ายไลบรารี Azure Synapse Spark ไปยัง Fabric

การเปรียบเทียบสมุดบันทึก

ข้อกําหนดงานสมุดบันทึกและ Spark เป็นรายการโค้ดหลักสําหรับการพัฒนางาน Apache Spark ใน Fabric มีความแตกต่างบางอย่างระหว่าง สมุดบันทึก Azure Synapse Spark และ Fabric Spark:

ความสามารถของสมุดบันทึก Azure Synapse Spark Fabric Spark
นําเข้า/ส่งออก ใช่ ใช่
การกําหนดค่าเซสชัน ใช่ UI และแบบอินไลน์ ใช่ UI (สภาพแวดล้อม) และแบบอินไลน์
IntelliSense ใช่ ใช่
mssparkutils ใช่ ใช่
แหล่งข้อมูลสมุดบันทึก ไม่ใช่ ใช่
ทํางานร่วมกัน ไม่ใช่ ใช่
ภาวะพร้อมกันสูง ไม่ใช่ ใช่
.NET สําหรับ Spark C# ใช่ ไม่ใช่
การสนับสนุนกิจกรรมของไปป์ไลน์ ใช่ ใช่
การสนับสนุนการเรียกใช้ตามกําหนดเวลาที่มีอยู่ภายใน ไม่ใช่ ใช่
การสนับสนุน API/SDK ใช่ ใช่
  • mssparkutils: เนื่องจากการเชื่อมต่อ DMTS ไม่ได้รับการสนับสนุนใน Fabric เท่านั้น getToken และgetSecretสนับสนุนสําหรับตอนนี้ใน Fabric สําหรับmssparkutils.credentials

  • ทรัพยากรสมุดบันทึก: Fabric notebook เป็นระบบไฟล์ที่เหมือนกับ Unix เพื่อช่วยให้คุณจัดการโฟลเดอร์และไฟล์ของคุณได้ สําหรับข้อมูลเพิ่มเติม ดู วิธีใช้สมุดบันทึก Microsoft Fabric

  • ทํางานร่วมกัน: สมุดบันทึก Fabric เป็นรายการทํางานร่วมกันที่สนับสนุนผู้ใช้หลายคนที่แก้ไขสมุดบันทึกเดียวกัน สําหรับข้อมูลเพิ่มเติม ดู วิธีใช้สมุดบันทึก Microsoft Fabric

  • ภาวะพร้อมกันสูง: ใน Fabric คุณสามารถแนบสมุดบันทึกกับเซสชันการทํางานพร้อมกันสูงได้ ตัวเลือกนี้เป็นทางเลือกสําหรับผู้ใช้ที่ใช้ ThreadPoolExecutor ใน Azure Synapse สําหรับข้อมูลเพิ่มเติม ให้ดู กําหนดค่าโหมดการทํางานพร้อมกันสูงสําหรับสมุดบันทึกสําหรับ Fabric

  • .NET สําหรับ Spark C#: Fabric ไม่สนับสนุน .NET Spark (C#) อย่างไรก็ตาม คําแนะนําที่ผู้ใช้ที่มี ปริมาณงานที่มีอยู่ที่เขียนใน C# หรือ F# โยกย้ายไปยัง Python หรือ Scala

  • การสนับสนุนการทํางานตามกําหนดเวลาในตัว: Fabric รองรับการเรียกใช้ตามกําหนดเวลาสําหรับโน้ตบุ๊ก

  • ข้อควรพิจารณาอื่น ๆ:

    • คุณสามารถใช้คุณลักษณะภายในสมุดบันทึกได้รับการสนับสนุนเฉพาะใน Spark เวอร์ชันเฉพาะเท่านั้น โปรดจําไว้ว่า Spark 2.4 และ 3.1 ไม่ได้รับการสนับสนุนใน Fabric
    • ถ้าสมุดบันทึกหรืองาน Spark ของคุณใช้บริการที่เชื่อมโยงด้วยการเชื่อมต่อแหล่งข้อมูลหรือจุดต่อเชื่อมที่แตกต่างกัน คุณควรปรับเปลี่ยนงาน Spark ของคุณเพื่อใช้วิธีอื่นในการจัดการการเชื่อมต่อไปยังแหล่งข้อมูลภายนอกและอ่างล้างจาน ใช้ Spark code เพื่อเชื่อมต่อกับแหล่งข้อมูลโดยใช้ไลบรารี Spark ที่พร้อมใช้งาน

การเปรียบเทียบข้อกําหนดของงาน Spark

ข้อควรพิจารณาของข้อกําหนดงาน Spark ที่สําคัญ:

ความสามารถของงาน Spark Azure Synapse Spark Fabric Spark
PySpark ใช่ ใช่
Scala ใช่ ใช่
.NET สําหรับ Spark C# ใช่ ไม่ใช่
Sparkr ไม่ใช่ ใช่
นําเข้า/ส่งออก ใช่ (UI) ไม่ใช่
การสนับสนุนกิจกรรมของไปป์ไลน์ ใช่ ใช่
การสนับสนุนการเรียกใช้ตามกําหนดเวลาที่มีอยู่ภายใน ไม่ใช่ ใช่
นโยบายการลองใหม่ ไม่ใช่ ใช่
การสนับสนุน API/SDK ใช่ ใช่
  • งาน Spark: คุณสามารถนํา.py ของคุณมา/ ไฟล์ R / jar ผ้ารองรับ SparkR ข้อกําหนดงาน Spark สนับสนุนไฟล์อ้างอิง อาร์กิวเมนต์บรรทัดคําสั่ง การกําหนดค่า Spark และการอ้างอิง lakehouse

  • นําเข้า/ส่งออก: ใน Azure Synapse คุณสามารถนําเข้า/ส่งออกข้อกําหนดงาน Spark ที่ใช้ json ได้จาก UI คุณลักษณะนี้ยังไม่พร้อมใช้งานใน Fabric

  • .NET สําหรับ Spark C#: Fabric ไม่สนับสนุน .NET Spark (C#) อย่างไรก็ตาม คําแนะนําคือผู้ใช้ที่มีปริมาณงานที่มีอยู่ที่เขียนใน C# หรือ F# โยกย้ายไปยัง Python หรือ Scala

  • การสนับสนุนการเรียกใช้ตามกําหนดเวลาในตัว: Fabric สนับสนุน การทํางานที่กําหนดไว้สําหรับข้อกําหนดงาน Spark

  • นโยบายการลองใหม่: ตัวเลือกนี้ช่วยให้ผู้ใช้สามารถเรียกใช้งานการสตรีมที่มีโครงสร้าง Spark ได้ไม่มีที่สิ้นสุด

การเปรียบเทียบ Hive Metastore (HMS)

ความแตกต่างและข้อควรพิจารณาของ Hive MetaStore (HMS):

ชนิด HMS Azure Synapse Spark Fabric Spark
HMS ภายใน ใช่ ใช่ (เลคเฮ้าส์)
HMS ภายนอก ใช่ ไม่ใช่
  • HMS ภายนอก: ในขณะนี้ Fabric ไม่สนับสนุนแค็ตตาล็อก API และการเข้าถึง Hive Metastore ภายนอก (HMS)