แชร์ผ่าน


แนวทางปฏิบัติที่ดีที่สุดสําหรับการสร้างแบบจําลองมิติโดยใช้กระแสข้อมูล

การออกแบบแบบจําลองมิติเป็นหนึ่งในงานทั่วไปที่คุณสามารถทําได้ด้วยกระแสข้อมูล บทความนี้เน้นแนวทางปฏิบัติที่ดีที่สุดสําหรับการสร้างแบบจําลองมิติโดยใช้กระแสข้อมูล

การจัดเตรียมกระแสข้อมูล

หนึ่งในจุดสําคัญในระบบการรวมข้อมูลคือการลดจํานวนการอ่านจากระบบการดําเนินงานต้นทาง ในสถาปัตยกรรมการรวมข้อมูลแบบดั้งเดิม การลดนี้ทําได้โดยการสร้างฐานข้อมูลใหม่ที่เรียกว่า ฐานข้อมูลการจัดเตรียม วัตถุประสงค์ของฐานข้อมูลการกําหนดระยะคือการโหลดข้อมูล as-is จากแหล่งข้อมูลลงในฐานข้อมูลการจัดเตรียมตามกําหนดการปกติ

ส่วนที่เหลือของการรวมข้อมูลจะใช้ฐานข้อมูลการกําหนดระยะเป็นแหล่งข้อมูลสําหรับการแปลงเพิ่มเติมและแปลงเป็นโครงสร้างแบบจําลองมิติ

เราขอแนะนําให้คุณทําตามวิธีการเดียวกันโดยใช้กระแสข้อมูล สร้างชุดของกระแสข้อมูลที่รับผิดชอบเพียงแค่โหลดข้อมูล as-is จากระบบต้นทาง (และสําหรับตารางที่คุณต้องการเท่านั้น) จากนั้นจึงจัดเก็บผลลัพธ์ไว้ในโครงสร้างที่เก็บข้อมูลของกระแสข้อมูล (Azure Data Lake Storage หรือ Dataverse) การเปลี่ยนแปลงนี้ช่วยให้แน่ใจว่าการดําเนินการอ่านจากระบบต้นทางมีน้อยมาก

ถัดไป คุณสามารถสร้างกระแสข้อมูลอื่นที่แหล่งข้อมูลมาจากการจัดเตรียมกระแสข้อมูล ประโยชน์ของวิธีนี้รวมถึง:

  • การลดจํานวนของการดําเนินการอ่านจากระบบต้นทางและลดภาระในระบบต้นทางเป็นผลให้ได้
  • การลดการโหลดบนเกตเวย์ข้อมูลหากมีการใช้แหล่งข้อมูลภายในองค์กร
  • การมีสําเนากลางของข้อมูลเพื่อวัตถุประสงค์ในการกระทบยอด ในกรณีที่มีการเปลี่ยนแปลงข้อมูลระบบต้นทาง
  • สร้างการแปลงกระแสข้อมูลโดยอิสระจากแหล่งข้อมูล

การจัดเตรียมกระแสข้อมูล

รูปภาพเน้นการจัดเตรียมกระแสข้อมูลและจัดเตรียมที่เก็บข้อมูล และแสดงข้อมูลที่มีการเข้าถึงจากแหล่งข้อมูลโดยกระแสข้อมูลการจัดเตรียม และตารางที่ถูกเก็บไว้ใน Cadavers หรือ Azure Data Lake Storage จากนั้นตารางจะถูกแปลงพร้อมกับกระแสข้อมูลอื่น ๆ ซึ่งจะถูกส่งออกเป็นคิวรี

กระแสข้อมูลการแปลง

เมื่อคุณแยกกระแสข้อมูลการแปลงของคุณออกจากกระแสข้อมูลการจัดเตรียมแล้ว การแปลงจะเป็นอิสระจากแหล่งข้อมูล การแยกนี้จะช่วยหากคุณกําลังโยกย้ายระบบต้นทางไปยังระบบใหม่ สิ่งที่คุณต้องทําในกรณีดังกล่าวคือเปลี่ยนการจัดเตรียมกระแสข้อมูล กระแสข้อมูลการแปลงมีแนวโน้มที่จะทํางานโดยไม่มีปัญหาใด ๆ เนื่องจากมาจากกระแสข้อมูลการจัดเตรียมเท่านั้น

การแยกนี้ยังช่วยในกรณีที่การเชื่อมต่อระบบต้นทางช้า กระแสข้อมูลการแปลงไม่จําเป็นต้องรอนานเพื่อให้ระเบียนได้รับการเชื่อมต่อจากระบบต้นทางช้า กระแสข้อมูลการแบ่งระยะได้ทําส่วนนั้นแล้ว และข้อมูลจะพร้อมสําหรับเลเยอร์การแปลง

รูปภาพ คล้ายกับรูปภาพก่อนหน้า ยกเว้นการแปลงจะถูกเน้น และข้อมูลจะถูกส่งไปยังคลังข้อมูล

สถาปัตยกรรมแบบชั้น

สถาปัตยกรรมแบบชั้นเป็นสถาปัตยกรรมที่คุณดําเนินการในเลเยอร์แยกต่างหาก กระแสข้อมูลการจัดเตรียมและการแปลงข้อมูลสามารถมีได้สองชั้นของสถาปัตยกรรมกระแสข้อมูลแบบหลายชั้น พยายามที่จะดําเนินการในเลเยอร์เพื่อให้แน่ใจว่าการบํารุงรักษาต่ําสุดที่จําเป็น เมื่อคุณต้องการเปลี่ยนแปลงบางสิ่ง คุณเพียงแค่ต้องเปลี่ยนในเลเยอร์ที่มันอยู่ เลเยอร์อื่น ๆ ทั้งหมดควรทํางานได้ต่อไป

รูปภาพต่อไปนี้แสดงสถาปัตยกรรมแบบหลายเลเยอร์สําหรับกระแสข้อมูลซึ่งมีการใช้ตารางของพวกเขาในแบบจําลองความหมายของ Power BI

รูปภาพที่มีสถาปัตยกรรมหลายชั้น ที่จัดเตรียมกระแสข้อมูลและกระแสข้อมูลการแปลงอยู่ในเลเยอร์ที่แยกต่างหาก

ใช้ตารางที่มีการคํานวณมากที่สุดเท่าที่เป็นไปได้

เมื่อคุณใช้ผลลัพธ์ของกระแสข้อมูลในกระแสข้อมูลอื่น คุณกําลังใช้แนวคิดของตารางที่คํานวณซึ่งหมายถึงการรับข้อมูลจากตาราง "ประมวลผลและจัดเก็บแล้ว" สิ่งเดียวกันนี้สามารถเกิดขึ้นภายในกระแสข้อมูลได้ เมื่อคุณอ้างอิงตารางจากตารางอื่น คุณสามารถใช้ตารางที่คํานวณได้ ซึ่งจะเป็นประโยชน์เมื่อคุณมีชุดของการแปลงที่ต้องทําในหลายตาราง ซึ่งเรียกว่า การแปลงทั่วไป

รูป ที่แสดงตารางที่คํานวณที่มาจากแหล่งข้อมูลที่ใช้ในการประมวลผลการแปลงข้อมูลทั่วไป

ในรูปภาพก่อนหน้า ตารางที่คํานวณจะได้รับข้อมูลจากแหล่งที่มาโดยตรง อย่างไรก็ตาม ในสถาปัตยกรรมของกระแสข้อมูลการจัดเตรียมและการแปลงอาจเป็นไปได้ว่าตารางที่คํานวณมีแหล่งที่มาจากกระแสข้อมูลการจัดเตรียม

ตารางที่คํานวณที่มาจากกระแสข้อมูลที่ใช้ในการประมวลผลการแปลงทั่วไป

สร้างสคีมาแบบดาว

แบบจําลองมิติที่ดีที่สุดคือแบบจําลอง Schema รูปดาวที่มีตารางมิติและตารางข้อเท็จจริงที่ออกแบบมาในวิธีเพื่อลดระยะเวลาในการคิวรีข้อมูลจากแบบจําลอง และยังทําให้ง่ายต่อการทําความเข้าใจสําหรับตัวแสดงข้อมูลด้วยภาพ

ไม่เหมาะที่จะนําข้อมูลในเค้าโครงเดียวกันของระบบปฏิบัติการลงในระบบ BI ตารางข้อมูลควรได้รับการปรับปรุงใหม่ บางตารางควรใช้รูปแบบของตารางมิติ ซึ่งเก็บข้อมูลที่เป็นคําอธิบาย ตารางบางตารางควรใช้รูปแบบของตารางข้อเท็จจริง เพื่อเก็บข้อมูลที่สามารถรวมได้ เค้าโครงที่ดีที่สุดสําหรับตารางข้อเท็จจริงและตารางมิติที่จะสร้างคือโครงสร้างแบบดาว ข้อมูลเพิ่มเติม: ทําความเข้าใจ Schema รูปดาวและความสําคัญสําหรับ Power BI

รูป Schema รูปดาว ที่แสดงตารางข้อเท็จจริงที่ล้อมรอบด้วยตารางมิติในรูปร่างของดาวห้าแฉก

ใช้ค่าคีย์ที่ไม่ซ้ํากันสําหรับมิติ

เมื่อสร้างตารางมิติข้อมูล ตรวจสอบให้แน่ใจว่าคุณมีคีย์สําหรับแต่ละคีย์ คีย์นี้ช่วยให้แน่ใจว่าไม่มีความสัมพันธ์แบบกลุ่มต่อกลุ่ม (หรืออีกนัยหนึ่งคือ "อ่อนแอ") ระหว่างมิติ คุณสามารถสร้างคีย์โดยใช้การแปลงบางอย่างเพื่อให้แน่ใจว่าคอลัมน์หรือชุดของคอลัมน์จะส่งกลับแถวที่ไม่ซ้ํากันในมิติ จากนั้นสามารถทําเครื่องหมายการรวมกันของคอลัมน์เป็นคีย์ในตารางในกระแสข้อมูลได้

ทําเครื่องหมายคอลัมน์เป็นค่าคีย์

ทําการรีเฟรชแบบเพิ่มหน่วยสําหรับตารางข้อเท็จจริงขนาดใหญ่

ตารางข้อเท็จจริงเป็นตารางที่มีขนาดใหญ่ที่สุดในแบบจําลองมิติ เราขอแนะนําให้คุณลดจํานวนแถวที่โอนย้ายสําหรับตารางเหล่านี้ ถ้าคุณมีตารางข้อเท็จจริงที่มีขนาดใหญ่มาก ตรวจสอบให้แน่ใจว่าคุณใช้การรีเฟรชแบบเพิ่มหน่วยสําหรับตารางนั้น การรีเฟรชแบบเพิ่มหน่วยสามารถทําได้ในแบบจําลองความหมาย Power BI และตารางกระแสข้อมูล

คุณสามารถใช้การรีเฟรชแบบเพิ่มหน่วยเพื่อรีเฟรชเฉพาะส่วนของข้อมูลส่วนที่มีการเปลี่ยนแปลงได้ มีหลายตัวเลือกในการเลือกว่าจะรีเฟรชส่วนใดของข้อมูลและส่วนใดที่จะยังคงอยู่ ข้อมูลเพิ่มเติม: ใช้การรีเฟรชแบบเพิ่มหน่วยกับกระแสข้อมูล Power BI

การรีเฟรชแบบเพิ่มหน่วยสําหรับกระแสข้อมูล

การอ้างอิงเพื่อสร้างตารางมิติและตารางข้อเท็จจริง

ในระบบต้นทาง คุณมักจะมีตารางที่คุณใช้ในการสร้างทั้งตารางข้อเท็จจริงและมิติในคลังข้อมูล ตารางเหล่านี้เป็นตัวระบุที่ดีสําหรับตารางที่มีการคํานวณและกระแสข้อมูลระดับกลาง ส่วนทั่วไปของกระบวนการ เช่น การทําความสะอาดข้อมูล และการลบแถวและคอลัมน์เพิ่มเติมสามารถทําได้ครั้งเดียว โดยใช้การอ้างอิงจากผลลัพธ์ของการดําเนินการเหล่านั้น คุณสามารถสร้างตารางมิติและตารางข้อเท็จจริงได้ วิธีการนี้จะใช้ตารางที่คํานวณสําหรับการแปลงข้อมูลทั่วไป

รูปภาพที่แสดงคิวรี Orders พร้อมตัวเลือกการอ้างอิงที่ใช้ในการสร้างคิวรีใหม่ที่เรียกว่า รวม Orders