แชร์ผ่าน


แนวทางประสิทธิภาพการทํางานของคลังข้อมูลสิ่งทอ

นําไปใช้กับ:✅ Warehouse ใน Microsoft Fabric

ต่อไปนี้คือแนวทางเพื่อช่วยให้คุณทําความเข้าใจประสิทธิภาพการทํางานของ Warehouse ใน Microsoft Fabric ในบทความนี้ คุณจะพบคําแนะนําและบทความสําคัญที่ต้องเน้น คลังสินค้าใน Microsoft Fabric เป็นแพลตฟอร์ม SaaS ที่มีการจัดการปริมาณงาน กระบวนการทํางานพร้อมกัน และการจัดการที่เก็บข้อมูลได้รับการจัดการภายในโดยแพลตฟอร์ม นอกเหนือจากการจัดการประสิทธิภาพภายในนี้ คุณยังสามารถปรับปรุงประสิทธิภาพการทํางานของคุณได้โดยการพัฒนาคิวรีที่มีประสิทธิภาพกับคลังสินค้าที่ออกแบบมาอย่างดี

ประสิทธิภาพการทํางานแบบเย็น (แคชเย็น)

การแคชด้วย SSD ภายในเครื่องและหน่วยความจํา จะเป็นไปโดยอัตโนมัติ การดําเนินการ 1-3 ครั้งแรกของคิวรีจะทํางานช้ากว่าการดําเนินการในภายหลังอย่างเห็นได้ชัด ถ้าคุณกําลังประสบปัญหาประสิทธิภาพการทํางานแบบเย็น ต่อไปนี้คือสองสิ่งที่คุณสามารถทําได้เพื่อปรับปรุงประสิทธิภาพการทํางานที่เย็นของคุณ:

  • ถ้าประสิทธิภาพการทํางานครั้งแรกเป็นสิ่งสําคัญ ให้ลองสร้างสถิติด้วยตนเอง ตรวจสอบบทความสถิติเพื่อให้เข้าใจบทบาทของสถิติได้ดียิ่งขึ้นและสําหรับคําแนะนําเกี่ยวกับวิธีการสร้างสถิติด้วยตนเองเพื่อปรับปรุงประสิทธิภาพการคิวรีของคุณ อย่างไรก็ตาม หากประสิทธิภาพการทํางานครั้งแรกไม่สําคัญ คุณสามารถพึ่งพาสถิติอัตโนมัติที่สร้างขึ้นในคิวรีแรกและจะยังคงใช้ประโยชน์จากการทํางานในภายหลัง (ตราบใดที่ข้อมูลพื้นฐานไม่มีการเปลี่ยนแปลงอย่างมีนัยสําคัญ)

  • ถ้าใช้ Power BI ให้ใช้ โหมด Direct Lake ถ้าเป็นไปได้

เมตริกสําหรับการตรวจสอบประสิทธิภาพ

ในปัจจุบัน ฮับ การตรวจสอบไม่รวมคลังสินค้า ถ้าคุณเลือก คลังข้อมูล คุณจะไม่สามารถเข้าถึงฮั การตรวจสอบจากแถบนําทางได้

ผู้ดูแลระบบผ้าจะสามารถเข้าถึง รายงานการใช้ความจุและเมตริก สําหรับการติดตามข้อมูลล่าสุดที่ใช้ประโยชน์จากความจุที่รวมถึงคลังสินค้า

ใช้มุมมองการจัดการแบบไดนามิก (DMV) เพื่อตรวจสอบการดําเนินการคิวรี

คุณสามารถใช้ มุมมองการจัดการแบบไดนามิก (DMV) เพื่อตรวจสอบการเชื่อมต่อ เซสชัน และสถานะคําขอในคลังสินค้า

สถิติ

คลังสินค้าใช้กลไกจัดการคิวรีเพื่อสร้างแผนการดําเนินการสําหรับคิวรี SQL ที่ระบุ เมื่อคุณส่งคิวรี ตัวปรับให้เหมาะสมคิวรีจะพยายามระบุแผนที่เป็นไปได้ทั้งหมดและเลือกผู้สมัครที่มีประสิทธิภาพมากที่สุด หากต้องการกําหนดแผนที่จะต้องใช้ค่าใช้จ่ายน้อยที่สุด กลไกจัดการจําเป็นต้องสามารถประเมินปริมาณงานหรือแถวที่อาจได้รับการประมวลผลโดยตัวดําเนินการแต่ละตัว จากนั้นโดยยึดตามต้นทุนของแต่ละแผน จะเลือกหนึ่งรายการที่มีจํานวนงานโดยประมาณน้อยที่สุด สถิติเป็นวัตถุที่มีข้อมูลที่เกี่ยวข้องเกี่ยวกับข้อมูลของคุณ เพื่ออนุญาตให้ตัวปรับปรับคิวรีเหมาะสมเพื่อประมาณค่าใช้จ่ายเหล่านี้

คุณยังสามารถ อัปเดตสถิติ ด้วยตนเองหลังจากโหลดข้อมูลแต่ละครั้งหรืออัปเดตข้อมูลเพื่อให้แน่ใจว่าสามารถสร้างแผนคิวรีที่ดีที่สุดได้

สําหรับข้อมูลเพิ่มเติมเกี่ยวกับสถิติและวิธีเพิ่มสถิติที่สร้างขึ้นโดยอัตโนมัติ ให้ดู สถิติในคลังข้อมูล Fabric

แนวทางการนําเข้าข้อมูล

มีสี่ตัวเลือกสําหรับการนําเข้าข้อมูลลงในคลังสินค้า:

  • คัดลอก (ทําสําเนา-SQL)
  • ไปป์ไลน์ข้อมูล
  • กระแสข้อมูล
  • การนําเข้าข้ามคลังสินค้า

เพื่อช่วยในการกําหนดตัวเลือกที่ดีที่สุดสําหรับคุณและเพื่อตรวจสอบแนวทางปฏิบัติที่ดีที่สุดสําหรับการนําเข้าข้อมูลบางรายการ ให้ตรวจสอบการนําเข้าข้อมูล

คําสั่ง GROUP INSERT เป็นชุดงาน (หลีกเลี่ยงการแทรกเคล็ดลับ)

การโหลดครั้งเดียวไปยังตารางขนาดเล็กที่มีคําสั่ง INSERT เช่นที่แสดงในตัวอย่างต่อไปนี้อาจเป็นวิธีที่ดีที่สุดโดยขึ้นอยู่กับความต้องการของคุณ อย่างไรก็ตามหากคุณต้องการโหลดแถวหลายพันหรือหลายล้านแถวตลอดทั้งวัน Singleton INSERTS จะไม่เหมาะสม

INSERT INTO MyLookup VALUES (1, 'Type 1') 

สําหรับคําแนะนําเกี่ยวกับวิธีการจัดการสถานการณ์การโหลดแบบเคล็ดลับเหล่านี้ โปรดดู แนวทางปฏิบัติที่ดีที่สุดสําหรับการนําเข้าข้อมูล

ลดขนาดธุรกรรม

คําสั่ง INSERT, UPDATE และ DELETE จะรันในธุรกรรม เมื่อล้มเหลว พวกเขาต้องย้อนกลับ เพื่อลดโอกาสการย้อนกลับที่นาน ให้ลดขนาดธุรกรรมเมื่อใดก็ตามที่เป็นไปได้ การลดขนาดธุรกรรมสามารถทําได้โดยการแบ่งคําสั่ง INSERT, UPDATE และ DELETE ออกเป็นส่วน ๆ ตัวอย่างเช่น ถ้าคุณมี INSERT ที่คุณคาดว่าจะใช้เวลา 1 ชั่วโมง คุณสามารถแบ่งแทรกออกเป็นสี่ส่วน การเรียกใช้แต่ละครั้งจะถูกย่อให้สั้นลงเป็น 15 นาที

พิจารณาใช้ CTAS (Transact-SQL) เพื่อเขียนข้อมูลที่คุณต้องการเก็บไว้ในตารางแทนที่จะใช้ DELETE ถ้า CTAS ใช้เวลาเท่ากัน การเรียกใช้ที่ปลอดภัยกว่าเนื่องจากมีการบันทึกธุรกรรมน้อยที่สุดและสามารถยกเลิกได้อย่างรวดเร็วถ้าจําเป็น

Collocate แอปพลิเคชันไคลเอ็นต์และ Microsoft Fabric

ถ้าคุณกําลังใช้แอปพลิเคชันไคลเอ็นต์ ตรวจสอบให้แน่ใจว่า คุณกําลังใช้ Microsoft Fabric ในภูมิภาคที่ใกล้กับคอมพิวเตอร์ไคลเอ็นต์ของคุณ ตัวอย่างแอปพลิเคชันไคลเอ็นต์รวมถึง Power BI Desktop, SQL Server Management Studio และ Azure Data Studio

ใช้ประโยชน์จากการออกแบบข้อมูล Schema รูปดาว

สคีมาแบบดาวจัดระเบียบข้อมูลลงในตารางข้อเท็จจริงและตารางมิติ ช่วยอํานวยความสะดวกในการประมวลผลเชิงวิเคราะห์โดยการดีนอร์มอลไลซ์ข้อมูลจากระบบ OLTP ที่เพิ่งมาตรฐาน สูง การนําเข้าข้อมูลธุรกรรม และข้อมูลหลักขององค์กรลงในโครงสร้างข้อมูลทั่วไป การทําความสะอาดและการตรวจสอบแล้ว ซึ่งจะลดการเข้าร่วมในเวลาที่มีการคิวรี ลดจํานวนแถวที่อ่านและอํานวยความสะดวกในการรวมและการจัดกลุ่มการประมวลผล

สําหรับคําแนะนําการออกแบบคลังสินค้าเพิ่มเติม โปรดดู ตารางในคลังข้อมูล

ลดขนาดชุดผลลัพธ์คิวรี

การลดขนาดชุดผลลัพธ์ของคิวรีจะช่วยให้คุณสามารถหลีกเลี่ยงปัญหาฝั่งไคลเอ็นต์ที่เกิดจากผลลัพธ์คิวรีขนาดใหญ่ ชุดผลลัพธ์ของตัวแก้ไขคิวรี SQL จะถูกจํากัดไว้ที่ 10,000 แถวแรกเพื่อหลีกเลี่ยงปัญหาเหล่านี้ใน UI ที่ใช้เบราว์เซอร์นี้ ถ้าคุณต้องการส่งกลับมากกว่า 10,000 แถว ให้ใช้ SQL Server Management Studio (SSMS) หรือ Azure Data Studio

เลือกชนิดข้อมูลที่ดีที่สุดสําหรับประสิทธิภาพการทํางาน

เมื่อกําหนดตารางของคุณ ให้ใช้ชนิดข้อมูลที่เล็กที่สุดที่สนับสนุนข้อมูลของคุณเหมือนเช่นนั้น จะช่วยปรับปรุงประสิทธิภาพการทํางานของคิวรี คําแนะนํานี้มีความสําคัญสําหรับคอลัมน์ CHAR และ VARCHAR ถ้าค่าที่ยาวที่สุดในคอลัมน์คือ 25 อักขระ จากนั้นกําหนดคอลัมน์ของคุณเป็น VARCHAR(25) หลีกเลี่ยงการกําหนดคอลัมน์อักขระทั้งหมดที่มีความยาวเริ่มต้นขนาดใหญ่

ใช้ชนิดข้อมูลตามจํานวนเต็มถ้าเป็นไปได้ การดําเนินการ SORT, JOIN และ GROUP BY เสร็จสมบูรณ์ได้เร็วขึ้นในจํานวนเต็มมากกว่าข้อมูลอักขระ

สําหรับชนิดข้อมูลที่ได้รับการสนับสนุนและข้อมูลเพิ่มเติม ดูชนิดข้อมูล

ประสิทธิภาพของจุดสิ้นสุดการวิเคราะห์ SQL

สําหรับข้อมูลและคําแนะนําเกี่ยวกับประสิทธิภาพของจุดสิ้นสุดการวิเคราะห์ SQL โปรดดู ข้อควรพิจารณาประสิทธิภาพของจุดสิ้นสุดการวิเคราะห์ SQL

การกระชับข้อมูล

การกระชับข้อมูลรวมไฟล์ Parquet ขนาดเล็กลงในไฟล์ขนาดใหญ่น้อยลง ซึ่งปรับการดําเนินการอ่านให้เหมาะสม กระบวนการนี้ยังช่วยในการจัดการแถวที่ถูกลบอย่างมีประสิทธิภาพโดยการกําจัดออกจากไฟล์ Parquet ที่ไม่สามารถตัดออกได้ กระบวนการกระชับข้อมูลเกี่ยวข้องกับการเขียนตารางหรือเซกเมนต์ของตารางใหม่เป็นไฟล์ Parquet ใหม่ที่ถูกปรับให้เหมาะสมสําหรับประสิทธิภาพการทํางาน สําหรับข้อมูลเพิ่มเติม ดูบล็อก: การกระชับข้อมูลอัตโนมัติสําหรับ Fabric Warehouse

กระบวนการอัดแน่นของข้อมูลถูกรวมเข้ากับคลังอย่างราบรื่น เมื่อมีการดําเนินการคิวรี ระบบจะระบุตารางที่อาจได้รับประโยชน์จากการกระชับและดําเนินการประเมินที่จําเป็น ไม่มีวิธีการทริกเกอร์การกระชับข้อมูลด้วยตนเอง