บทช่วยสอน: ตั้งค่า dbt สําหรับคลังข้อมูล Fabric
นําไปใช้กับ:✅ Warehouse ใน Microsoft Fabric
บทช่วยสอนนี้จะแนะนําการตั้งค่า dbt และการปรับใช้โครงการแรกของคุณกับ Fabric Warehouse
บทนำ
เฟรม เวิร์กโอเพนซอร์ส dbt (เครื่องมือสร้างข้อมูล) ทําให้การแปลงข้อมูลและวิศวกรรมการวิเคราะห์ง่ายขึ้น โดยจะมุ่งเน้นไปที่การแปลงข้อมูลตาม SQL ภายในเลเยอร์การวิเคราะห์ โดยถือว่า SQL เป็นโค้ด dbt สนับสนุนการควบคุมเวอร์ชัน แยกส่วน การทดสอบ และเอกสารประกอบ
สามารถใช้อะแด็ปเตอร์ dbt สําหรับ Microsoft Fabric เพื่อสร้างโครงการ dbt ซึ่งสามารถปรับใช้กับ Fabric Data Warehouse ได้
คุณยังสามารถเปลี่ยนแพลตฟอร์มเป้าหมายสําหรับโครงการ dbt ได้โดยการเปลี่ยนอะแด็ปเตอร์ ตัวอย่างเช่น ตัวอย่างเช่น คุณสามารถเปลี่ยนแพลตฟอร์มเป้าหมายสําหรับโครงการ Dbt ด้วยการเปลี่ยนอะแดปเตอร์ โครงการที่สร้างขึ้นสําหรับกลุ่ม SQL เฉพาะของ Azure Synapse สามารถอัปเกรดได้ในไม่กี่วินาทีไปยัง Fabric Data Warehouse
ข้อกําหนดเบื้องต้นสําหรับอะแด็ปเตอร์ dbt สําหรับ Microsoft Fabric
ทําตามรายการนี้เพื่อติดตั้งและตั้งค่าข้อกําหนดเบื้องต้นของ dbt:
รุ่นล่าสุดของอะแด็ปเตอร์ dbt-fabric จากที่เก็บ PyPI (Python Package Index) โดยใช้
pip install dbt-fabric
pip install dbt-fabric
หมายเหตุ
โดยการเปลี่ยน
pip install dbt-fabric
เป็นpip install dbt-synapse
และใช้คําแนะนําต่อไปนี้ คุณสามารถ ติดตั้งอะแด็ปเตอร์ dbt สําหรับพูล SQL เฉพาะ Synapseตรวจสอบให้แน่ใจว่าได้ติดตั้ง dbt-fabric และการอ้างอิงโดยใช้
pip list
คําสั่ง:pip list
รายการแพคเกจและเวอร์ชันปัจจุบันที่ยาวควรถูกส่งกลับจากคําสั่งนี้
ถ้าคุณยังไม่มี ให้สร้างคลังสินค้า คุณสามารถใช้ความจุทดลองสําหรับแบบฝึกหัดนี้: ลงทะเบียนสําหรับ Microsoft Fabric รุ่นทดลองใช้ฟรี สร้างพื้นที่ทํางาน แล้วสร้างคลังสินค้า
เริ่มต้นใช้งานด้วยอะแด็ปเตอร์ผ้า dbt
บทช่วยสอนนี้ใช้ Visual Studio Code แต่คุณสามารถใช้เครื่องมือที่คุณต้องการได้
โคลน โครงการ dbt สาธิต jaffle_shop ลงบนเครื่องของคุณ
- คุณสามารถ ลอกแบบ repo ด้วยตัวควบคุมแหล่งข้อมูลที่มีอยู่ภายในของ Visual Studio Code
- ตัวอย่างเช่น คุณสามารถใช้
git clone
คําสั่ง:
git clone https://github.com/dbt-labs/jaffle_shop.git
เปิด
jaffle_shop
โฟลเดอร์โครงการใน Visual Studio Codeคุณสามารถข้ามการลงทะเบียนได้ถ้าคุณได้สร้างคลังสินค้าแล้ว
สร้าง
profiles.yml
ไฟล์ เพิ่มการกําหนดค่าต่อไปนี้ไปยังprofiles.yml
ไฟล์นี้กําหนดค่าการเชื่อมต่อกับคลังสินค้าของคุณใน Microsoft Fabric โดยใช้อะแด็ปเตอร์ dbt-fabricconfig: partial_parse: true jaffle_shop: target: fabric-dev outputs: fabric-dev: authentication: CLI database: <put the database name here> driver: ODBC Driver 18 for SQL Server host: <enter your SQL analytics endpoint here> schema: dbo threads: 4 type: fabric
หมายเหตุ
เปลี่ยน
type
จากfabric
เป็น เพื่อsynapse
สลับอะแด็ปเตอร์ฐานข้อมูลเป็น Azure Synapse Analytics หากต้องการ แพลตฟอร์มข้อมูลของโครงการ dbt ที่มีอยู่สามารถอัปเดตได้โดยการเปลี่ยนอะแด็ปเตอร์ฐานข้อมูล สําหรับข้อมูลเพิ่มเติม โปรดดู รายการ dbt ของแพลตฟอร์มข้อมูลที่สนับสนุนรับรองความถูกต้องกับ Azure ในเทอร์มินัล Visual Studio Code
- เรียกใช้
az login
ในเทอร์มินัล Visual Studio Code ถ้าคุณกําลังใช้การรับรองความถูกต้อง Azure CLI - สําหรับการรับรองความถูกต้องของบริการหลักหรือรหัส Microsoft Entra อื่น ๆ (ชื่อเดิมคือ Azure Active Directory) ใน Microsoft Fabric โปรดดู การตั้งค่า dbt (เครื่องมือสร้างข้อมูล) และ การกําหนดค่าทรัพยากร dbt สําหรับข้อมูลเพิ่มเติม ดูการรับรองความถูกต้องของ Microsoft Entra เป็นทางเลือกในการรับรองความถูกต้อง SQL ใน Microsoft Fabric
- เรียกใช้
ในตอนนี้ คุณก็พร้อมที่จะทดสอบการเชื่อมต่อแล้ว เมื่อต้องการทดสอบการเชื่อมต่อกับคลังสินค้าของคุณ ให้เรียกใช้
dbt debug
ในเทอร์มินัล Visual Studio Codedbt debug
เช็คทั้งหมดจะถูกส่งผ่าน ซึ่งหมายความว่าคุณสามารถเชื่อมต่อคลังสินค้าของคุณโดยใช้อะแด็ปเตอร์ผ้า dbt จาก
jaffle_shop
โครงการ dbtในตอนนี้ก็ถึงเวลาที่จะทดสอบว่าอะแด็ปเตอร์ทํางานหรือไม่ การเรียกใช้
dbt seed
ครั้งแรกเพื่อแทรกข้อมูลตัวอย่างลงในคลังสินค้าเรียกใช้
dbt run
เพื่อตรวจสอบข้อมูลกับการทดสอบบางอย่างdbt run
เรียกใช้
dbt test
เพื่อเรียกใช้แบบจําลองที่กําหนดในโครงการ dbt สาธิตdbt test
ขณะนี้คุณได้ปรับใช้โครงการ dbt ไปยัง Fabric Data Warehouse แล้ว
ย้ายระหว่างคลังสินค้าต่างๆ
การย้ายโครงการ dbt ระหว่างคลังสินค้าที่แตกต่างกันเป็นเรื่องง่าย โครงการ dbt บนคลังสินค้าที่ได้รับการสนับสนุนใด ๆ สามารถโยกย้ายได้อย่างรวดเร็วด้วยกระบวนการสามขั้นตอนนี้:
ติดตั้งอะแด็ปเตอร์ใหม่ สําหรับข้อมูลเพิ่มเติมและคําแนะนําในการติดตั้งแบบเต็ม ให้ดูที่ อะแด็ปเตอร์ dbt
type
อัปเดตคุณสมบัติ ในprofiles.yml
ไฟล์สร้างโครงการ
dbt ในโรงงานข้อมูลผ้า
เมื่อรวมเข้ากับกระแสอากาศ Apache ระบบการจัดการเวิร์กโฟลว์ที่ได้รับความนิยม dbt จะกลายเป็นเครื่องมือที่มีประสิทธิภาพสําหรับการจัดเรียงการแปลงข้อมูล ความสามารถในการจัดกําหนดการและการจัดการงานของกระแสอากาศช่วยให้ทีมข้อมูลสามารถเรียกใช้ dbt ได้โดยอัตโนมัติ ตรวจสอบให้แน่ใจว่ามีการอัปเดข้อมูลปกติและรักษาความไหลของข้อมูลคุณภาพสูงที่สอดคล้องกันสําหรับการวิเคราะห์และการรายงาน ด้วยวิธีการที่รวมกันนี้ การใช้ความเชี่ยวชาญในการแปลงข้อมูลของ dbt กับการจัดการเวิร์กโฟลว์ของ Airflow ส่งมอบไปป์ไลน์ข้อมูลที่มีประสิทธิภาพและแข็งแกร่ง ในท้ายที่สุดนําไปสู่การตัดสินใจที่มีข้อมูลเชิงลึกมากขึ้นและรวดเร็วขึ้น
Apache Airflow เป็นแพลตฟอร์มโอเพนซอร์สที่ใช้ในการสร้าง จัดกําหนดการ และตรวจสอบเวิร์กโฟลว์ข้อมูลที่ซับซ้อนทางโปรแกรม ซึ่งช่วยให้คุณสามารถกําหนดชุดของงานที่เรียกว่า ตัวดําเนินการ ที่สามารถรวมเป็นกราฟอซิกลิก (DAGs) โดยตรงเพื่อเป็นตัวแทนไปป์ไลน์ข้อมูล
สําหรับข้อมูลเพิ่มเติมเพื่อดําเนินการ dbt ด้วยคลังสินค้าของคุณ ดูแปลงข้อมูลโดยใช้ dbt ด้วย Data Factory ใน Microsoft Fabric
ข้อควรพิจารณา
สิ่งสําคัญที่ต้องพิจารณาเมื่อใช้อะแดปเตอร์ผ้า dbt:
ตรวจสอบ ข้อจํากัดปัจจุบันในคลังข้อมูล Microsoft Fabric
Fabric สนับสนุนการรับรองความถูกต้อง Microsoft Entra ID (ชื่อเดิมคือ Azure Active Directory) สําหรับองค์ประกอบหลักของผู้ใช้ ข้อมูลประจําตัวผู้ใช้ และโครงร่างสําคัญของบริการ โหมดการรับรองความถูกต้องที่แนะนําเพื่อทํางานแบบโต้ตอบในคลังสินค้าคือ CLI (อินเทอร์เฟซบรรทัดคําสั่ง) และใช้บริการหลักสําหรับระบบอัตโนมัติ
ตรวจทานคําสั่ง T-SQL (Transact-SQL) ที่ไม่ได้รับการสนับสนุนใน Fabric Data Warehouse
คําสั่ง T-SQL บางคําสั่งได้รับการสนับสนุนโดยตัวปรับต่อ dbt-fabric โดยใช้
Create Table as Select
(CTAS)DROP
และCREATE
คําสั่ง เช่นALTER TABLE ADD/ALTER/DROP COLUMN
,MERGE
,TRUNCATE
sp_rename
ตรวจสอบ ชนิดข้อมูล ที่ไม่รองรับเพื่อเรียนรู้เกี่ยวกับชนิดข้อมูลที่ได้รับการสนับสนุนและไม่สนับสนุน
คุณสามารถบันทึกปัญหาบนอะแดปเตอร์เนื้อผ้า dbt บน GitHub โดยไปที่ ปัญหา , microsoft/dbt-fabric · 1 GitHub