แชร์ผ่าน


นําเข้าข้อมูลลงใน OneLake และวิเคราะห์ด้วย Azure Databricks

ในคู่มือนี้ คุณจะ:

  • สร้างไปป์ไลน์ในพื้นที่ทํางานและนําเข้าข้อมูลลงใน OneLake ของคุณในรูปแบบ Delta

  • อ่านและปรับเปลี่ยนตาราง Delta ใน OneLake ด้วย Azure Databricks

ข้อกำหนดเบื้องต้น

ก่อนที่คุณจะเริ่มต้น คุณต้องมี:

  • พื้นที่ทํางานที่มีรายการเลคเฮ้าส์

  • พื้นที่ทํางาน Azure Databricks ระดับพรีเมียม เฉพาะพื้นที่ทํางาน Azure Databricks ระดับพรีเมียมเท่านั้นที่สนับสนุนการส่งผ่านข้อมูลประจําตัวของ Microsoft Entra เมื่อสร้างคลัสเตอร์ของคุณ เปิดใช้งานการส่งผ่านข้อมูลประจําตัวของ Azure Data Lake Storage ใน ตัวเลือกขั้นสูง

  • ชุดข้อมูลตัวอย่าง

นําเข้าข้อมูลและปรับเปลี่ยนตาราง Delta

  1. นําทางไปยังเลคเฮ้าส์ของคุณในบริการของ Power BI และเลือก รับข้อมูล จากนั้นเลือก ไปป์ไลน์ข้อมูลใหม่

    สกรีนช็อตแสดงวิธีการนําทางไปยังตัวเลือกไปป์ไลน์ข้อมูลใหม่จากภายใน UI

  2. ในพรอมต์ไปป์ไลน์ใหม่ ใส่ชื่อสําหรับไปป์ไลน์ใหม่จากนั้นเลือก สร้าง

  3. สําหรับแบบฝึกหัดนี้ ให้เลือกข้อมูลตัวอย่าง NYC Taxi - Green เป็นแหล่งข้อมูล จากนั้นเลือก ถัดไป

    สกรีนช็อตแสดงวิธีการเลือกแบบจําลองความหมายตัวอย่าง NYC

  4. บนหน้าจอแสดงตัวอย่าง เลือกถัดไป

  5. สําหรับปลายทางของข้อมูล เลือกชื่อของเลคเฮาส์ที่คุณต้องการใช้เพื่อจัดเก็บข้อมูลตาราง OneLake Delta คุณสามารถเลือกเลคเฮ้าส์ที่มีอยู่แล้วหรือสร้างขึ้นใหม่

    สกรีนช็อตแสดงวิธีการเลือกเลคเฮ้าส์ปลายทาง

  6. เลือกตําแหน่งที่คุณต้องการจัดเก็บเอาต์พุต เลือก ตาราง เป็นโฟลเดอร์ราก และใส่ "nycsample" เป็นชื่อตาราง

  7. บนหน้าจอ ตรวจสอบ + บันทึก ให้เลือก เริ่มการถ่ายโอนข้อมูลทันที จากนั้นเลือก บันทึก + เรียกใช้

    สกรีนช็อตที่แสดงวิธีการป้อนชื่อตาราง

  8. เมื่องานเสร็จสมบูรณ์ นําทางไปยัง lakehouse ของคุณ และดูตาราง delta ที่แสดงรายการภายใต้ /โฟลเดอร์ตาราง

  9. คลิกขวาบนชื่อตารางที่สร้างขึ้น เลือก คุณสมบัติ และคัดลอกเส้นทางระบบไฟล์ Azure Blob (ABFS)

  10. เปิดสมุดบันทึก Azure Databricks ของคุณ อ่านตาราง Delta บน OneLake

    olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
    df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
    df.show(5)
    
  11. อัปเดตข้อมูลตาราง Delta โดยการเปลี่ยนค่าเขตข้อมูล

    %sql
    update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;