แชร์ผ่าน


บทช่วยสอน: ตั้งค่า dbt สําหรับคลังข้อมูล Fabric

นําไปใช้กับ:✅ Warehouse ใน Microsoft Fabric

บทช่วยสอนนี้จะแนะนําการตั้งค่า dbt และการปรับใช้โครงการแรกของคุณกับ Fabric Warehouse

บทนำ

เฟรม เวิร์กโอเพนซอร์ส dbt (เครื่องมือสร้างข้อมูล) ทําให้การแปลงข้อมูลและวิศวกรรมการวิเคราะห์ง่ายขึ้น โดยจะมุ่งเน้นไปที่การแปลงข้อมูลตาม SQL ภายในเลเยอร์การวิเคราะห์ โดยถือว่า SQL เป็นโค้ด dbt สนับสนุนการควบคุมเวอร์ชัน แยกส่วน การทดสอบ และเอกสารประกอบ

สามารถใช้อะแด็ปเตอร์ dbt สําหรับ Microsoft Fabric เพื่อสร้างโครงการ dbt ซึ่งสามารถปรับใช้กับ Fabric Data Warehouse ได้

คุณยังสามารถเปลี่ยนแพลตฟอร์มเป้าหมายสําหรับโครงการ dbt ได้โดยการเปลี่ยนอะแด็ปเตอร์ ตัวอย่างเช่น ตัวอย่างเช่น คุณสามารถเปลี่ยนแพลตฟอร์มเป้าหมายสําหรับโครงการ Dbt ด้วยการเปลี่ยนอะแดปเตอร์ โครงการที่สร้างขึ้นสําหรับกลุ่ม SQL เฉพาะของ Azure Synapse สามารถอัปเกรดได้ในไม่กี่วินาทีไปยัง Fabric Data Warehouse

ข้อกําหนดเบื้องต้นสําหรับอะแด็ปเตอร์ dbt สําหรับ Microsoft Fabric

ทําตามรายการนี้เพื่อติดตั้งและตั้งค่าข้อกําหนดเบื้องต้นของ dbt:

  1. Python เวอร์ชัน 3.7 (หรือสูงกว่า)

  2. Microsoft ODBC Driver สําหรับ SQL Server

  3. รุ่นล่าสุดของอะแด็ปเตอร์ dbt-fabric จากที่เก็บ PyPI (Python Package Index) โดยใช้pip install dbt-fabric

    pip install dbt-fabric
    

    หมายเหตุ

    โดยการเปลี่ยน pip install dbt-fabric เป็น pip install dbt-synapse และใช้คําแนะนําต่อไปนี้ คุณสามารถ ติดตั้งอะแด็ปเตอร์ dbt สําหรับพูล SQL เฉพาะ Synapse

  4. ตรวจสอบให้แน่ใจว่าได้ติดตั้ง dbt-fabric และการอ้างอิงโดยใช้ pip list คําสั่ง:

    pip list
    

    รายการแพคเกจและเวอร์ชันปัจจุบันที่ยาวควรถูกส่งกลับจากคําสั่งนี้

  5. ถ้าคุณยังไม่มี ให้สร้างคลังสินค้า คุณสามารถใช้ความจุทดลองสําหรับแบบฝึกหัดนี้: ลงทะเบียนสําหรับ Microsoft Fabric รุ่นทดลองใช้ฟรี สร้างพื้นที่ทํางาน แล้วสร้างคลังสินค้า

เริ่มต้นใช้งานด้วยอะแด็ปเตอร์ผ้า dbt

บทช่วยสอนนี้ใช้ Visual Studio Code แต่คุณสามารถใช้เครื่องมือที่คุณต้องการได้

  1. โคลน โครงการ dbt สาธิต jaffle_shop ลงบนเครื่องของคุณ

    git clone https://github.com/dbt-labs/jaffle_shop.git
    
  2. เปิด jaffle_shop โฟลเดอร์โครงการใน Visual Studio Code

    ภาพหน้าจอจากรหัส Visual Studio ที่แสดงโครงการที่เปิดอยู่

  3. คุณสามารถข้ามการลงทะเบียนได้ถ้าคุณได้สร้างคลังสินค้าแล้ว

  4. สร้าง profiles.yml ไฟล์ เพิ่มการกําหนดค่าต่อไปนี้ไปยังprofiles.yml ไฟล์นี้กําหนดค่าการเชื่อมต่อกับคลังสินค้าของคุณใน Microsoft Fabric โดยใช้อะแด็ปเตอร์ dbt-fabric

    config:
      partial_parse: true
    jaffle_shop:
      target: fabric-dev
      outputs:    
        fabric-dev:
          authentication: CLI
          database: <put the database name here>
          driver: ODBC Driver 18 for SQL Server
          host: <enter your SQL analytics endpoint here>
          schema: dbo
          threads: 4
          type: fabric
    

    หมายเหตุ

    เปลี่ยน type จาก fabric เป็น เพื่อ synapse สลับอะแด็ปเตอร์ฐานข้อมูลเป็น Azure Synapse Analytics หากต้องการ แพลตฟอร์มข้อมูลของโครงการ dbt ที่มีอยู่สามารถอัปเดตได้โดยการเปลี่ยนอะแด็ปเตอร์ฐานข้อมูล สําหรับข้อมูลเพิ่มเติม โปรดดู รายการ dbt ของแพลตฟอร์มข้อมูลที่สนับสนุน

  5. รับรองความถูกต้องกับ Azure ในเทอร์มินัล Visual Studio Code

  6. ในตอนนี้ คุณก็พร้อมที่จะทดสอบการเชื่อมต่อแล้ว เมื่อต้องการทดสอบการเชื่อมต่อกับคลังสินค้าของคุณ ให้เรียกใช้ dbt debug ในเทอร์มินัล Visual Studio Code

    dbt debug
    

    ภาพหน้าจอจากรหัส Visual Studio ที่แสดงคําสั่งดีบัก dbt

    เช็คทั้งหมดจะถูกส่งผ่าน ซึ่งหมายความว่าคุณสามารถเชื่อมต่อคลังสินค้าของคุณโดยใช้อะแด็ปเตอร์ผ้า dbt จาก jaffle_shop โครงการ dbt

  7. ในตอนนี้ก็ถึงเวลาที่จะทดสอบว่าอะแด็ปเตอร์ทํางานหรือไม่ การเรียกใช้ dbt seed ครั้งแรกเพื่อแทรกข้อมูลตัวอย่างลงในคลังสินค้า

    ภาพหน้าจอจากรหัส Visual Studio ที่แสดงคําสั่งข้อมูลเริ่มต้นของ dbt

  8. เรียกใช้ dbt run เพื่อตรวจสอบข้อมูลกับการทดสอบบางอย่าง

    dbt run
    

    ภาพหน้าจอจากรหัส Visual Studio ที่แสดงคําสั่งการเรียกใช้ dbt

  9. เรียกใช้ dbt test เพื่อเรียกใช้แบบจําลองที่กําหนดในโครงการ dbt สาธิต

    dbt test
    

    ภาพหน้าจอจากรหัส Visual Studio ที่แสดงคําสั่งทดสอบ dbt

ขณะนี้คุณได้ปรับใช้โครงการ dbt ไปยัง Fabric Data Warehouse แล้ว

ย้ายระหว่างคลังสินค้าต่างๆ

การย้ายโครงการ dbt ระหว่างคลังสินค้าที่แตกต่างกันเป็นเรื่องง่าย โครงการ dbt บนคลังสินค้าที่ได้รับการสนับสนุนใด ๆ สามารถโยกย้ายได้อย่างรวดเร็วด้วยกระบวนการสามขั้นตอนนี้:

  1. ติดตั้งอะแด็ปเตอร์ใหม่ สําหรับข้อมูลเพิ่มเติมและคําแนะนําในการติดตั้งแบบเต็ม ให้ดูที่ อะแด็ปเตอร์ dbt

  2. typeอัปเดตคุณสมบัติ ในprofiles.ymlไฟล์

  3. สร้างโครงการ

dbt ในโรงงานข้อมูลผ้า

เมื่อรวมเข้ากับกระแสอากาศ Apache ระบบการจัดการเวิร์กโฟลว์ที่ได้รับความนิยม dbt จะกลายเป็นเครื่องมือที่มีประสิทธิภาพสําหรับการจัดเรียงการแปลงข้อมูล ความสามารถในการจัดกําหนดการและการจัดการงานของกระแสอากาศช่วยให้ทีมข้อมูลสามารถเรียกใช้ dbt ได้โดยอัตโนมัติ ตรวจสอบให้แน่ใจว่ามีการอัปเดข้อมูลปกติและรักษาความไหลของข้อมูลคุณภาพสูงที่สอดคล้องกันสําหรับการวิเคราะห์และการรายงาน ด้วยวิธีการที่รวมกันนี้ การใช้ความเชี่ยวชาญในการแปลงข้อมูลของ dbt กับการจัดการเวิร์กโฟลว์ของ Airflow ส่งมอบไปป์ไลน์ข้อมูลที่มีประสิทธิภาพและแข็งแกร่ง ในท้ายที่สุดนําไปสู่การตัดสินใจที่มีข้อมูลเชิงลึกมากขึ้นและรวดเร็วขึ้น

Apache Airflow เป็นแพลตฟอร์มโอเพนซอร์สที่ใช้ในการสร้าง จัดกําหนดการ และตรวจสอบเวิร์กโฟลว์ข้อมูลที่ซับซ้อนทางโปรแกรม ซึ่งช่วยให้คุณสามารถกําหนดชุดของงานที่เรียกว่า ตัวดําเนินการ ที่สามารถรวมเป็นกราฟอซิกลิก (DAGs) โดยตรงเพื่อเป็นตัวแทนไปป์ไลน์ข้อมูล

สําหรับข้อมูลเพิ่มเติมเพื่อดําเนินการ dbt ด้วยคลังสินค้าของคุณ ดูแปลงข้อมูลโดยใช้ dbt ด้วย Data Factory ใน Microsoft Fabric

ข้อควรพิจารณา

สิ่งสําคัญที่ต้องพิจารณาเมื่อใช้อะแดปเตอร์ผ้า dbt:

  • ตรวจสอบ ข้อจํากัดปัจจุบันในคลังข้อมูล Microsoft Fabric

  • Fabric สนับสนุนการรับรองความถูกต้อง Microsoft Entra ID (ชื่อเดิมคือ Azure Active Directory) สําหรับองค์ประกอบหลักของผู้ใช้ ข้อมูลประจําตัวผู้ใช้ และโครงร่างสําคัญของบริการ โหมดการรับรองความถูกต้องที่แนะนําเพื่อทํางานแบบโต้ตอบในคลังสินค้าคือ CLI (อินเทอร์เฟซบรรทัดคําสั่ง) และใช้บริการหลักสําหรับระบบอัตโนมัติ

  • ตรวจทานคําสั่ง T-SQL (Transact-SQL) ที่ไม่ได้รับการสนับสนุนใน Fabric Data Warehouse

  • คําสั่ง T-SQL บางคําสั่งได้รับการสนับสนุนโดยตัวปรับต่อ dbt-fabric โดยใช้ Create Table as Select (CTAS) DROPและCREATEคําสั่ง เช่น ALTER TABLE ADD/ALTER/DROP COLUMN, MERGE, TRUNCATEsp_rename

  • ตรวจสอบ ชนิดข้อมูล ที่ไม่รองรับเพื่อเรียนรู้เกี่ยวกับชนิดข้อมูลที่ได้รับการสนับสนุนและไม่สนับสนุน

  • คุณสามารถบันทึกปัญหาบนอะแดปเตอร์เนื้อผ้า dbt บน GitHub โดยไปที่ ปัญหา , microsoft/dbt-fabric · 1 GitHub

ขั้นตอนถัดไป