แชร์ผ่าน


บทช่วยสอน: ใช้สมุดบันทึกกับ Apache Spark เพื่อคิวรีฐานข้อมูล KQL

สมุดบันทึกเป็นทั้งเอกสารที่สามารถอ่านได้ซึ่งประกอบด้วยคําอธิบายการวิเคราะห์ข้อมูลและผลลัพธ์ และเอกสารที่สามารถเรียกใช้ได้ซึ่งสามารถเรียกใช้เพื่อทําการวิเคราะห์ข้อมูลได้ ในบทความนี้ คุณจะได้เรียนรู้วิธีการใช้สมุดบันทึก Microsoft Fabric เพื่ออ่านและเขียนข้อมูลไปยังฐานข้อมูล KQL โดยใช้ Apache Spark บทช่วยสอนนี้ใช้ชุดข้อมูลและสมุดบันทึกที่กําหนดไว้ล่วงหน้าทั้งในตัวแสดงเวลาจริงและสภาพแวดล้อมวิศวกรข้อมูลใน Microsoft Fabric สําหรับข้อมูลเพิ่มเติมเกี่ยวกับสมุดบันทึก ดู วิธีการใช้สมุดบันทึก Microsoft Fabric

โดยเฉพาะ คุณเรียนรู้วิธีการ:

  • สร้างฐานข้อมูล KQL
  • นําเข้าสมุดบันทึก
  • เขียนข้อมูลไปยังฐานข้อมูล KQL โดยใช้ Apache Spark
  • สอบถามข้อมูลจากฐานข้อมูล KQL

ข้อกำหนดเบื้องต้น

  • พื้นที่ทํางานที่มีความจุที่เปิดใช้งาน Microsoft Fabric

1- สร้างฐานข้อมูล KQL

  1. เลือกพื้นที่ทํางานของคุณจากแถบนําทางด้านซ้าย

  2. ทําตามหนึ่งในขั้นตอนเหล่านี้เพื่อเริ่มสร้างเหตุการณ์สตรีม:

    • เลือก รายการใหม่ จากนั้น Eventhouse ในเขตข้อมูล ชื่ออีเวนต์เฮ้าส์ ใส่ nycGreenTaxiจากนั้นเลือก สร้าง มีการสร้างฐานข้อมูล KQL โดยใช้ชื่อเดียวกัน
    • ในอีเวนต์เฮ้าส์ที่มีอยู่ ให้เลือก ฐานข้อมูล ภายใต้ ฐานข้อมูล KQL เลือก ในฟิลด์ ชื่อฐานข้อมูล KQL ป้อนnycGreenTaxi จากนั้นเลือก สร้าง
  3. คัดลอก URI คิวรีจากการ์ดรายละเอียดฐานข้อมูลในแดชบอร์ดฐานข้อมูล และวางไว้ในตําแหน่งใดที่หนึ่ง เช่น Notepad เพื่อใช้ในขั้นตอนต่อไป

     สกรีนช็อตของการ์ดรายละเอียดฐานข้อมูลที่แสดงรายละเอียดฐานข้อมูล ตัวเลือก URI คิวรีที่ชื่อว่าคัดลอก URI จะถูกเน้น

2- ดาวน์โหลดสมุดบันทึก NYC GreenTaxi

เราได้สร้างสมุดบันทึกตัวอย่างที่จะนําคุณผ่านขั้นตอนที่จําเป็นทั้งหมดสําหรับการโหลดข้อมูลลงในฐานข้อมูลของคุณโดยใช้ตัวเชื่อมต่อ Spark

  1. เปิด ที่เก็บตัวอย่าง Fabric บน GitHub เพื่อดาวน์โหลด สมุดบันทึก NYC GreenTaxi KQL

    ภาพหน้าจอของที่เก็บ GitHub ที่แสดงสมุดบันทึก NYC GreenTaxi ตัวเลือกดิบจะถูกเน้น

  2. บันทึกสมุดบันทึกลงในเครื่องของคุณ

    หมายเหตุ

    สมุดบันทึกต้องถูกบันทึกในรูปแบบ .ipynb แฟ้ม

3- นําเข้าสมุดบันทึก

ส่วนที่เหลือของเวิร์กโฟลว์นี้เกิดขึ้นในส่วนวิศวกรข้อมูลของผลิตภัณฑ์ และใช้สมุดบันทึก Spark เพื่อโหลดและคิวรีข้อมูลในฐานข้อมูล KQL ของคุณ

  1. จากพื้นที่ทํางานของคุณ เลือก นําเข้า>สมุดบันทึก>จากคอมพิวเตอร์เครื่องนี้>อัปโหลด จากนั้นเลือกสมุดบันทึก NYC GreenTaxi ที่คุณดาวน์โหลดไว้ในขั้นตอนก่อนหน้า

    ภาพหน้าจอของหน้าต่างสถานะการนําเข้า ปุ่มที่ชื่อว่า อัปโหลด จะถูกไฮไลต์ไว้

  2. เมื่อการนําเข้าเสร็จสมบูรณ์ ให้เปิดสมุดบันทึกจากพื้นที่ทํางานของคุณ

4- รับข้อมูล

เมื่อต้องการคิวรีฐานข้อมูลของคุณโดยใช้ตัวเชื่อมต่อ Spark คุณจําเป็นต้องให้การเข้าถึงแบบอ่านและเขียนไปยังคอนเทนเนอร์ blob ของ NYC GreenTaxi

เลือกปุ่มเล่นเพื่อเรียกใช้เซลล์ต่อไปนี้ หรือเลือกเซลล์และกด Shift+ Enter ทําซ้ําขั้นตอนนี้สําหรับแต่ละเซลล์ของโค้ด

หมายเหตุ

รอให้เครื่องหมายถูกเสร็จสมบูรณ์ปรากฏขึ้นก่อนที่จะเรียกใช้เซลล์ถัดไป

  1. เรียกใช้เซลล์ต่อไปนี้เพื่อเปิดใช้งานการเข้าถึงคอนเทนเนอร์ blob ของ NYC GreenTaxi

    ภาพหน้าจอของเซลล์โค้ดแรกที่แสดงข้อมูลการเข้าถึงที่เก็บข้อมูล

  2. ใน KustoURI ให้ วาง URI คิวรีที่คุณ คัดลอกไว้ก่อนหน้านี้ แทนตัวแทนข้อความ

  3. เปลี่ยนชื่อฐานข้อมูลตัวแทนข้อความเป็น nycGreenTaxi

  4. เปลี่ยนชื่อตารางพื้นที่ที่สํารองไว้เป็น GreenTaxiData

    ภาพหน้าจอของเซลล์โค้ดที่สองที่แสดงข้อมูลฐานข้อมูลเป้าหมาย URI คิวรี่ ชื่อฐานข้อมูล และชื่อตารางจะถูกเน้น

  5. เรียกใช้เซลล์

  6. เรียกใช้เซลล์ถัดไปเพื่อเขียนข้อมูลลงในฐานข้อมูลของคุณ อาจใช้เวลาสักครู่เพื่อให้ขั้นตอนนี้เสร็จสมบูรณ์

    ภาพหน้าจอของเซลล์โค้ดที่สามที่แสดงการแมปตารางและคําสั่งการนําเข้า

ฐานข้อมูลของคุณมีข้อมูลที่โหลดในตารางที่ ชื่อ GreenTaxiData แล้ว

5- เรียกใช้สมุดบันทึก

เรียกใช้สองเซลล์ที่เหลือตามลําดับเพื่อสอบถามข้อมูลจากตารางของคุณ ผลการค้นหาแสดงค่าโดยสารรถแท็กซี่สูงสุดและต่ําสุด 20 อันดับแรกและระยะทางที่บันทึกไว้ตามปี

ภาพหน้าจอของเซลล์โค้ดที่สี่และห้าที่แสดงผลลัพธ์คิวรี

6- ล้างข้อมูล

ล้างรายการที่สร้างขึ้นโดยการนําทางไปยังพื้นที่ทํางานที่สร้างขึ้น

  1. ในพื้นที่ทํางานของคุณ ให้วางเมาส์เหนือสมุดบันทึกที่คุณต้องการลบ เลือกเมนู เพิ่มเติม [...] >ลบ

    ภาพหน้าจอของพื้นที่ทํางานที่แสดงเมนูดรอปดาวน์ของสมุดบันทึก NYC GreenTaxi ตัวเลือกที่ชื่อว่า ลบ จะถูกเน้น

  2. เลือก ลบ คุณไม่สามารถกู้คืนสมุดบันทึกของคุณได้เมื่อคุณลบสมุดบันทึกนั้น