แชร์ผ่าน


วิธีการสร้างข้อกําหนดงาน Apache Spark ใน Fabric

ในบทช่วยสอนนี้ คุณจะได้เรียนรู้วิธีการสร้างข้อกําหนดงาน Spark ใน Microsoft Fabric

ข้อกำหนดเบื้องต้น

ก่อนที่คุณเริ่มต้นใช้งาน คุณต้องการ:

เคล็ดลับ

เมื่อต้องการเรียกใช้รายการข้อกําหนดงาน Spark คุณต้องมีไฟล์ข้อกําหนดหลักและบริบทของเลคเฮ้าส์ตามค่าเริ่มต้น ถ้าคุณไม่มีเลคเฮ้าส์ คุณสามารถสร้างได้โดยทําตามขั้นตอนใน สร้างเลคเฮ้าส์

สร้างข้อกําหนดงาน Spark

กระบวนการสร้างข้อกําหนดงาน Spark ทําได้ง่ายและรวดเร็ว มีหลายวิธีในการเริ่มต้นใช้งาน

ตัวเลือกเพื่อสร้างข้อกําหนดงาน Spark

มีสองวิธีที่คุณสามารถเริ่มต้นด้วยกระบวนการสร้าง:

  • มุมมองพื้นที่ทํางาน: คุณสามารถสร้างข้อกําหนดงาน Spark ได้อย่างง่ายดายผ่าน พื้นที่ทํางาน Fabric โดยการเลือก รายการใหม่Spark Job Definition

  • Fabric Home: อีกจุดหนึ่งเพื่อสร้างข้อกําหนดงาน Spark คือ การวิเคราะห์ข้อมูล โดยใช้ไทล์ SQL ... บนโฮมเพจ Fabric คุณสามารถค้นหาตัวเลือกเดียวกันได้โดยการเลือกไทล์ ทั่วไป

    สกรีนช็อตที่แสดงตําแหน่งที่จะเลือกข้อกําหนดงาน Spark บน Create Hub

คุณต้องตั้งชื่อให้ข้อกําหนดงาน Spark ของคุณเมื่อสร้างงาน ชื่อต้องไม่ซ้ํากันภายในพื้นที่ทํางานปัจจุบัน ข้อกําหนดงาน Spark ใหม่จะถูกสร้างขึ้นในพื้นที่ทํางานปัจจุบันของคุณ

สร้างข้อกําหนดงาน Spark สําหรับ PySpark (Python)

เมื่อต้องสร้างข้อกําหนดงาน Spark สําหรับ PySpark:

  1. ดาวน์โหลดตัวอย่างไฟล์ Parquet yellow_tripdata_2022-01.parquet และอัปโหลดไปยังส่วนไฟล์ของเลคเฮ้าส์

  2. สร้างข้อกําหนดงาน Spark ใหม่

  3. เลือก PySpark (Python) จากรายการแบบเลื่อนลง ของภาษา

  4. ดาวน์โหลดตัวอย่าง createTablefromParquet.py และอัปโหลดเป็นไฟล์ข้อกําหนดหลัก แฟ้มข้อกําหนดหลัก (งาน) หลัก) เป็นไฟล์ที่มีตรรกะของแอปพลิเคชันและเป็นข้อบังคับในการเรียกใช้งาน Spark สําหรับแต่ละข้อกําหนดงาน Spark คุณสามารถอัปโหลดได้เพียงหนึ่งไฟล์ข้อกําหนดหลักเท่านั้น

    คุณสามารถอัปโหลดไฟล์ข้อกําหนดหลักจากเดสก์ท็อปภายในเครื่องของคุณ หรือคุณสามารถอัปโหลดจาก Azure Data Lake Storage (ADLS) Gen2 ที่มีอยู่ได้โดยกําหนดเส้นทาง ABFSS แบบเต็มของไฟล์ ตัวอย่างเช่น: abfss://your-storage-account-name.dfs.core.windows.net/your-file-path

  5. อัปโหลดไฟล์อ้างอิงเป็นไฟล์.py ไฟล์อ้างอิงคือโมดูล python ที่นําเข้าโดยไฟล์ข้อกําหนดหลัก เช่นเดียวกับไฟล์ข้อกําหนดหลัก คุณสามารถอัปโหลดจากเดสก์ท็อปของคุณหรือ ADLS Gen2 ที่มีอยู่ได้ รองรับไฟล์อ้างอิงหลายรายการ

    เคล็ดลับ

    หากคุณใช้เส้นทาง ADLS Gen2 เพื่อให้แน่ใจว่าไฟล์สามารถเข้าถึงได้คุณต้องให้บัญชีผู้ใช้ที่ทํางานสิทธิ์ที่เหมาะสมกับบัญชีเก็บข้อมูล เราขอแนะนําสองวิธีในการทําเช่นนี้:

    • กําหนดบัญชีผู้ใช้บทบาทผู้สนับสนุนสําหรับบัญชีเก็บข้อมูล
    • ให้สิทธิ์การอ่านและการดําเนินการแก่บัญชีผู้ใช้สําหรับไฟล์ผ่านรายการควบคุมการเข้าถึง ADLS Gen2 (ACL)

    สําหรับการเรียกใช้ด้วยตนเอง บัญชีของผู้ใช้เข้าสู่ระบบปัจจุบันจะถูกใช้เพื่อเรียกใช้งาน

  6. ระบุอาร์กิวเมนต์บรรทัดคําสั่งสําหรับงาน ถ้าจําเป็น ใช้ช่องว่างเป็นตัวแยกเพื่อแยกอาร์กิวเมนต์

  7. เพิ่มการอ้างอิงของเลคเฮ้าส์ไปยังงาน คุณต้องมีการอ้างอิงของเลคเฮ้าส์อย่างน้อยหนึ่งรายการในงาน เลคเฮ้าส์นี้เป็นบริบทของเลคเฮาส์เริ่มต้นสําหรับงาน

    การอ้างอิงของเลคเฮ้าส์หลายรายการได้รับการรองรับ ค้นหาชื่อเลคเฮ้าส์ที่ไม่ใช่ค่าเริ่มต้นและ URL ของ OneLake ทั้งหมดในหน้าการตั้งค่า Spark

    สกรีนช็อตแสดงตัวอย่างของหน้าจอไฟล์ข้อกําหนดหลักที่เติม

สร้างข้อกําหนดงาน Spark สําหรับ Scala/Java

การสร้างข้อกําหนดงาน Spark สําหรับ Scala/Java:

  1. สร้างข้อกําหนดงาน Spark ใหม่

  2. เลือก Spark(Scala/Java) จากรายการแบบเลื่อนลงของ ภาษา

  3. อัปโหลดไฟล์ข้อกําหนดหลักเป็นไฟล์.jar ไฟล์ข้อกําหนดหลักคือไฟล์ที่มีตรรกะของแอปพลิเคชันของงานนี้และเป็นข้อบังคับในการเรียกใช้งาน Spark สําหรับแต่ละข้อกําหนดงาน Spark คุณสามารถอัปโหลดได้เพียงหนึ่งไฟล์ข้อกําหนดหลักเท่านั้น ใส่ชื่อคลาสหลัก

  4. อัปโหลดไฟล์อ้างอิงเป็นไฟล์.jar ไฟล์อ้างอิงคือไฟล์ที่อ้างอิง/นําเข้าโดยไฟล์คํานิยามหลัก

  5. ระบุอาร์กิวเมนต์บรรทัดคําสั่งสําหรับงาน ถ้าจําเป็น

  6. เพิ่มการอ้างอิงของเลคเฮ้าส์ไปยังงาน คุณต้องมีการอ้างอิงของเลคเฮ้าส์อย่างน้อยหนึ่งรายการในงาน เลคเฮ้าส์นี้เป็นบริบทของเลคเฮาส์เริ่มต้นสําหรับงาน

สร้างข้อกําหนดงาน Spark สําหรับ R

เมื่อต้องสร้างข้อกําหนดงาน Spark สําหรับ SparkR(R):

  1. สร้างข้อกําหนดงาน Spark ใหม่

  2. เลือก SparkR(R) จากรายการแบบเลื่อนลง ภาษา

  3. อัปโหลดไฟล์ข้อกําหนดหลักเป็น ไฟล์ R ไฟล์ข้อกําหนดหลักคือไฟล์ที่มีตรรกะของแอปพลิเคชันของงานนี้และเป็นข้อบังคับในการเรียกใช้งาน Spark สําหรับแต่ละข้อกําหนดงาน Spark คุณสามารถอัปโหลดได้เพียงหนึ่งไฟล์ข้อกําหนดหลักเท่านั้น

  4. อัปโหลดไฟล์อ้างอิงเป็น ไฟล์ R ไฟล์อ้างอิงคือไฟล์ที่อ้างอิง/นําเข้าโดยไฟล์คํานิยามหลัก

  5. ระบุอาร์กิวเมนต์บรรทัดคําสั่งสําหรับงาน ถ้าจําเป็น

  6. เพิ่มการอ้างอิงของเลคเฮ้าส์ไปยังงาน คุณต้องมีการอ้างอิงของเลคเฮ้าส์อย่างน้อยหนึ่งรายการในงาน เลคเฮ้าส์นี้เป็นบริบทของเลคเฮาส์เริ่มต้นสําหรับงาน

หมายเหตุ

ข้อกําหนดงาน Spark จะถูกสร้างขึ้นในพื้นที่ทํางานปัจจุบันของคุณ

ตัวเลือกเพื่อกําหนดข้อกําหนดงาน Spark

มีตัวเลือกสองสามตัวเพื่อกําหนดการดําเนินการตามข้อกําหนดงาน Spark เพิ่มเติม

  • การคํานวณ Spark: ภายใน แท็บ Spark Compute คุณสามารถดู เวอร์ชัน รันไทม์ซึ่งเป็นเวอร์ชันของ Spark ที่จะใช้เพื่อเรียกใช้งานได้ คุณยังสามารถดูการตั้งค่าการกําหนดค่า Spark ที่จะใช้เพื่อเรียกใช้งานได้ คุณสามารถกําหนดการตั้งค่าการกําหนดค่า Spark เองได้โดยการคลิกที่ปุ่ม เพิ่ม
  • การปรับให้เหมาะสม: บนแท็บ การปรับให้เหมาะสม คุณสามารถเปิดใช้งานและตั้งค่า นโยบาย การลองใหม่สําหรับงานได้ เมื่อเปิดใช้งาน ระบบจะลองงานใหม่หากล้มเหลว คุณยังสามารถตั้งค่าจํานวนสูงสุดของการลองใหม่และช่วงเวลาระหว่างการลองใหม่ สําหรับแต่ละความพยายามอีกครั้ง งานจะเริ่มต้นใหม่ ตรวจสอบให้แน่ใจว่างานเป็น นิจพล

    สกรีนช็อตแสดงตําแหน่งที่จะตั้งค่านโยบายการลองใหม่