โมดูล 2: แปลงข้อมูลด้วยกระแสข้อมูลใน Data Factory
โมดูลนี้ใช้เวลาประมาณ 25 นาทีในการสร้างกระแสข้อมูล ใช้การแปลงและย้ายข้อมูลดิบจากตารางทองแดงลงในตาราง Gold Lakehouse
ด้วยข้อมูลดิบที่โหลดลงในตารางบรอนซ์เลคเฮ้าส์ของคุณจากโมดูลสุดท้ายตอนนี้คุณสามารถเตรียมข้อมูลนั้นและเติมแต่งโดยรวมกับตารางอื่นที่มีส่วนลดสําหรับผู้จําหน่ายแต่ละรายและการเดินทางของพวกเขาในวันใดวันหนึ่ง ตาราง Gold Lakehouse ที่สุดท้ายนี้ถูกโหลดและพร้อมสําหรับการบริโภค
ขั้นตอนระดับสูงในกระแสข้อมูลมีดังนี้:
- รับข้อมูลดิบจากตาราง Lakehouse ที่สร้างขึ้นโดยกิจกรรมคัดลอกใน โมดูล 1: สร้างไปป์ไลน์ด้วย Data Factory
- แปลงข้อมูลที่นําเข้าจากตารางเลคเฮ้าส์
- เชื่อมต่อกับไฟล์ CSV ที่มีข้อมูลส่วนลด
- แปลงข้อมูลส่วนลด
- รวมข้อมูลการเดินทางและส่วนลด
- โหลดคิวรีเอาต์พุตลงในตาราง Gold Lakehouse
รับข้อมูลจากตารางเลคเฮ้าส์
จากแถบด้านข้าง ให้เลือกพื้นที่ทํางานของคุณ เลือก รายการใหม่จากนั้น Dataflow Gen2 เพื่อสร้าง Dataflow Gen2 ใหม่
จากเมนูกระแสข้อมูลใหม่ เลือก รับข้อมูลจากนั้น เพิ่มเติม...
ค้นหาและเลือกตัวเชื่อมต่อ Lakehouse
กล่องโต้ตอบ เชื่อมต่อกับแหล่งข้อมูล
จะปรากฏขึ้น และการเชื่อมต่อใหม่จะถูกสร้างขึ้นโดยอัตโนมัติสําหรับคุณโดยยึดตามผู้ใช้ที่ลงชื่อเข้าใช้ในปัจจุบัน เลือก ถัดไป กล่องโต้ตอบ เลือกข้อมูล จะปรากฏขึ้น ใช้บานหน้าต่างนําทางเพื่อค้นหาเลคเฮ้าส์ที่คุณสร้างขึ้นสําหรับปลายทางในโมดูลก่อนหน้า และเลือกตารางข้อมูล Tutorial_Lakehouse
(ไม่บังคับ) เมื่อพื้นที่ทํางานของคุณมีข้อมูลแล้ว คุณสามารถตั้งค่าโปรไฟล์คอลัมน์ ข้อมูลได้ เนื่องจากจะเป็นประโยชน์สําหรับการทําโปรไฟล์ข้อมูล คุณสามารถใช้การแปลงที่เหมาะสมและกําหนดเป้าหมายค่าข้อมูลที่ถูกต้องตามนั้น
เมื่อต้องการทําเช่นนี้ เลือกตัวเลือก จากบานหน้าต่าง Ribbon จากนั้นเลือกตัวเลือกสามตัวแรกภายใต้ โปรไฟล์คอลัมน์ จากนั้นเลือก ตกลง
แปลงข้อมูลที่นําเข้าจากเลคเฮ้าส์
เลือกไอคอนชนิดข้อมูลในส่วนหัวของคอลัมน์ที่สอง
IpepPickupDatetime เพื่อแสดงเมนูดรอปดาวน์และเลือกชนิดข้อมูลจากเมนูเพื่อแปลงคอลัมน์จาก วันที่/เวลาเป็นประเภท วันที่ (ไม่บังคับ) บนแท็บ หน้าแรก ของริบบอนให้เลือกตัวเลือก เลือกคอลัมน์ จากกลุ่มจัดการคอลัมน์ (ไม่บังคับ) บนกล่องโต้ตอบ เลือกคอลัมน์ยกเลิกการเลือกบางคอลัมน์ที่แสดงไว้ที่นี่ จากนั้นเลือก ตกลง - lpepDropoffDatetime
- puLocationId
- doLocationId
- pickupLatitude
- dropoffLongitude
- rateCodeID
เลือกเมนู storeAndFwdFlag ตัวกรองคอลัมน์และเรียงลําดับเมนูแบบดรอปดาวน์ (หากคุณเห็นคําเตือน รายการอาจไม่สมบูรณ์ให้เลือก โหลด เพิ่มเติมเพื่อดูข้อมูลทั้งหมด)
เลือก 'Y' เพื่อแสดงเฉพาะแถวที่ใช้ส่วนลด จากนั้นเลือก ตกลง
เลือกเมนู เรียงลําดับและตัวกรอง
IpepPickupDatetime จากนั้นเลือกตัวกรองวันที่ และเลือกตัวกรอง ระหว่าง... ที่ระบุสําหรับชนิดวันที่และวันที่/เวลาในกล่องโต้ตอบ กรองแถว ให้เลือกวันที่ระหว่าง 1 มกราคม 2015 และวันที่ 31 มกราคม 2015 จากนั้นเลือก ตกลง
เชื่อมต่อกับไฟล์ CSV ที่มีข้อมูลส่วนลด
ตอนนี้ ด้วยข้อมูลจากการเดินทางในตอนนี้ เราต้องการโหลดข้อมูลที่ประกอบด้วยส่วนลดที่เกี่ยวข้องสําหรับแต่ละวันและ VendorID และเตรียมข้อมูลก่อนรวมกับข้อมูลการเดินทาง
จากแท็บ
หน้าแรก ในเมนูตัวแก้ไขกระแสข้อมูล ให้เลือกตัวเลือกรับข้อมูล จากนั้นเลือกข้อความ/CSV ในกล่องโต้ตอบ เชื่อมต่อกับแหล่งข้อมูล ให้รายละเอียดต่อไปนี้:
- เส้นทางของไฟล์หรือ
- ประเภทการรับรองความถูกต้อง
- ไม่ระบุชื่อ
จากนั้นเลือก ถัดไป
- เส้นทางของไฟล์หรือ
ในกล่องโต้ตอบ ข้อมูลของแฟ้มแสดงตัวอย่าง
ให้เลือก สร้าง
แปลงข้อมูลส่วนลด
การตรวจทานข้อมูล เราเห็นว่าส่วนหัวปรากฏอยู่ในแถวแรก เลื่อนไปยังส่วนหัวโดยการเลือกเมนูบริบทของตารางที่ด้านบนซ้ายของพื้นที่เส้นตารางแสดงตัวอย่างเพื่อเลือก ใช้แถวแรกเป็นส่วนหัว
โน้ต
หลังจากเลื่อนระดับส่วนหัวแล้ว คุณสามารถดูขั้นตอนใหม่ที่เพิ่มลงในขั้นตอนที่กําหนดใช้ บานหน้าต่างที่ด้านบนของตัวแก้ไขกระแสข้อมูลเป็นชนิดข้อมูลคอลัมน์ของคุณ
คลิกขวาที่คอลัมน์ VendorID และจากเมนูบริบทที่แสดงขึ้น ให้เลือกตัวเลือก เปลี่ยนคอลัมน์อื่น ซึ่งช่วยให้คุณสามารถแปลงคอลัมน์เป็นคู่แอตทริบิวต์-ค่า โดยที่คอลัมน์กลายเป็นแถว
เมื่อยกเลิกการเลือกตารางแล้ว ให้เปลี่ยนชื่อคอลัมน์ แอตทริบิวต์
และ ค่า โดยการดับเบิลคลิกที่คอลัมน์เหล่านั้น และเปลี่ยน แอตทริบิวต์ เป็น วันที่ และ ค่า เป็น ส่วนลด เปลี่ยนชนิดข้อมูลของคอลัมน์ วันที่ โดยการเลือกเมนูชนิดข้อมูลทางด้านซ้ายของชื่อคอลัมน์ แล้วเลือก วันที่
เลือกคอลัมน์ Discount จากนั้นเลือกแท็บ แปลง บนเมนู เลือก
คอลัมน์ ตัวเลข จากนั้นเลือก การแปลงตัวเลข มาตรฐานจากเมนูย่อย และเลือก หาร ในกล่องโต้ตอบ แบ่ง
ให้ใส่ค่า 100
รวมข้อมูลการเดินทางและส่วนลด
ขั้นตอนถัดไปคือการรวมทั้งสองตารางให้เป็นตารางเดียวที่มีส่วนลดที่ควรใช้กับการเดินทางและผลรวมที่ปรับปรุงแล้ว
ก่อนอื่น สลับปุ่ม มุมมองไดอะแกรม
เพื่อให้คุณสามารถดูคิวรีทั้งสองของคุณได้ เลือกคิวรี
nyc_taxi จากนั้นบนแท็บ หน้าแรก ของให้เลือกเมนู รวม และเลือกผสานคิวรี จากนั้นผสานคิวรีเป็น ใหม่ในกล่องโต้ตอบ ผสาน
ให้เลือก Generated-NYC-Taxi-Green-Discounts จากตารางขวา สําหรับการผสาน ดรอปดาวน์ จากนั้นเลือกไอคอน "หลอดไฟ" ที่ด้านบนขวาของกล่องโต้ตอบเพื่อดูการแมปคอลัมน์ที่แนะนําระหว่างสองตารางเลือกการแมปคอลัมน์ที่แนะนําแต่ละรายการทีละรายการ โดยแมปคอลัมน์ VendorID และวันที่จากทั้งสองตาราง เมื่อมีการเพิ่มการทําแผนที่ทั้งสองส่วนหัวของคอลัมน์ที่ตรงกันจะถูกเน้นในแต่ละตาราง
ข้อความจะแสดงขึ้นเพื่อขอให้คุณรวมข้อมูลจากแหล่งข้อมูลหลายแหล่งเพื่อดูผลลัพธ์ เลือก ตกลง ในกล่องโต้ตอบ ผสาน
ในพื้นที่ตาราง ในขั้นต้น คุณจะเห็นคําเตือนว่า "การประเมินผลได้ถูกยกเลิกเนื่องจากการรวมข้อมูลจากหลายแหล่งอาจแสดงข้อมูลจากแหล่งข้อมูลหนึ่งไปยังอีกแหล่งข้อมูลหนึ่ง เลือกดําเนินการต่อหากความเป็นไปได้ของการเปิดเผยข้อมูลสามารถดําเนินการได้" เลือก ดําเนินการต่อ เพื่อแสดงข้อมูลรวม
ให้สังเกตว่าคิวรีใหม่ถูกสร้างขึ้นในมุมมองแผนภาพ ที่แสดงความสัมพันธ์ของคิวรีผสานใหม่กับคิวรีสองคิวรีที่คุณสร้างไว้ก่อนหน้านี้อย่างไร ดูที่บานหน้าต่างตารางของตัวแก้ไข เลื่อนไปทางด้านขวาของรายการคอลัมน์ ผสานคิวรี เพื่อดูคอลัมน์ใหม่ที่มีค่าตารางอยู่ นี่คือคอลัมน์ "สร้าง NYC Taxi-Green-Discounts" และชนิดของคอลัมน์ [ตาราง] ในส่วนหัวของคอลัมน์มีไอคอนที่มีลูกศรสองอันที่ไปในทิศทางตรงกันข้าม ช่วยให้คุณสามารถเลือกคอลัมน์จากตารางได้ ยกเลิกการเลือกคอลัมน์ทั้งหมดยกเว้นส่วนลด
จากนั้นเลือก ตกลง ด้วยค่าส่วนลดในขณะนี้ที่ระดับแถว เราสามารถสร้างคอลัมน์ใหม่เพื่อคํานวณจํานวนรวมหลังจากส่วนลดได้ เมื่อต้องการทําเช่นนั้น เลือกแท็บ
เพิ่มคอลัมน์ ที่ด้านบนของตัวแก้ไข และเลือก คอลัมน์แบบกําหนดเองจากกลุ่ม ทั่วไปของ ในกล่องโต้ตอบ คอลัมน์แบบกําหนดเอง
คุณสามารถใช้ภาษาสูตร TotalAfterDiscountPower Query (หรือที่เรียกว่า M) เพื่อกําหนดวิธีการคํานวณคอลัมน์ใหม่ของคุณ ใส่สําหรับการ ชื่อคอลัมน์ใหม่ เลือก สกุลเงินสําหรับชนิดข้อมูล และระบุนิพจน์ M ต่อไปนี้สําหรับสูตรคอลัมน์แบบกําหนดเอง : ถ้า [totalAmount] > 0 แล้ว [totalAmount] * ( 1 -[ส่วนลด] ) อื่น [totalAmount]
จากนั้นเลือก ตกลง
เลือกคอลัมน์
TotalAfterDiscount ที่สร้างขึ้นใหม่ จากนั้นเลือกแท็บ แปลงที่ด้านบนของหน้าต่างตัวแก้ไข บนกลุ่ม คอลัมน์ ตัวเลข ให้เลือก ดรอปดาวน์ ปัดเศษ แล้วเลือกรอบ... ในกล่องโต้ตอบ Roundให้ใส่ 2 สําหรับจํานวนตําแหน่งทศนิยมจากนั้นเลือก ตกลง
เปลี่ยนชนิดข้อมูลของ IpepPickupDatetime จากวันที่ไปเป็นวันที่/เวลา
สุดท้าย ขยายการตั้งค่า คิวรี บานหน้าต่างจากด้านขวาของตัวแก้ไขถ้ายังไม่ได้ขยาย และเปลี่ยนชื่อคิวรีจาก ผสาน เป็น Output
โหลดคิวรีเอาต์พุตไปยังตารางใน Lakehouse
ด้วยคิวรีเอาต์พุตที่จัดเตรียมไว้อย่างสมบูรณ์และพร้อมข้อมูลพร้อมสําหรับการแสดงผลเราสามารถกําหนดปลายทางผลลัพธ์สําหรับคิวรีได้
เลือกคิวรีผสาน Output สร้างไว้ก่อนหน้านี้ จากนั้นเลือกแท็บ
Home ในตัวแก้ไข และเพิ่ม ปลายทางของข้อมูลจากการจัดกลุ่ม คิวรี่เพื่อเลือกปลายทาง Lakehouse บน เชื่อมต่อกับปลายทางข้อมูล กล่องโต้ตอบ การเชื่อมต่อของคุณควรถูกเลือกแล้ว เลือก ถัดไปเพื่อดําเนินการต่อ
ในกล่องโต้ตอบ เลือกเป้าหมายปลายทาง เรียกดู Lakehouse ที่คุณต้องการโหลดข้อมูลและตั้งชื่อตารางใหม่ nyc_taxi_with_discountsจากนั้นเลือก ถัดไปอีกครั้ง
บน เลือกการตั้งค่าปลายทาง กล่องโต้ตอบ ปล่อยให้ค่าเริ่มต้น แทนที่ อัปเดต โปรดตรวจสอบให้แน่ใจว่าคอลัมน์ของคุณได้รับการแมปอย่างถูกต้องและเลือก บันทึกการตั้งค่า
กลับไปที่หน้าต่างตัวแก้ไขหลัก ยืนยันว่าคุณเห็นปลายทางผลลัพธ์ของคุณบน การตั้งค่าคิวรี บานหน้าต่างสําหรับตาราง Output จากนั้นเลือก เผยแพร่
สําคัญ
เมื่อกระแสข้อมูล Gen2 แรกถูกสร้างขึ้นในพื้นที่ทํางาน รายการ Lakehouse และ Warehouse ถูกเตรียมใช้งานพร้อมกับจุดสิ้นสุดการวิเคราะห์ SQL ที่เกี่ยวข้องและแบบจําลองความหมาย รายการเหล่านี้จะถูกแชร์โดยกระแสข้อมูลทั้งหมดในพื้นที่ทํางานและจําเป็นต้องใช้กระแสข้อมูล Gen2 เพื่อทํางาน ไม่ควรถูกลบและไม่ได้ตั้งใจที่จะใช้โดยตรงโดยผู้ใช้ รายการคือรายละเอียดการใช้งานของ กระแสข้อมูล Gen2 รายการจะไม่สามารถมองเห็นได้ในพื้นที่ทํางาน แต่อาจสามารถเข้าถึงได้ในประสบการณ์การใช้งานอื่น ๆ เช่น โน้ตบุ๊ค จุดสิ้นสุด SQL, Lakehouse และประสบการณ์การใช้งานคลังสินค้า คุณสามารถจดจํารายการได้จากคํานําหน้าในชื่อ คํานําหน้าของรายการคือ 'DataflowsStaging'
(ไม่บังคับ) บนหน้าพื้นที่ทํางาน คุณสามารถเปลี่ยนชื่อกระแสข้อมูลของคุณได้โดยการเลือกจุดไข่ปลาทางด้านขวาของชื่อกระแสข้อมูลที่ปรากฏขึ้นหลังจากที่คุณเลือกแถว และเลือก คุณสมบัติ
เลือกไอคอนรีเฟรชสําหรับกระแสข้อมูลหลังจากเลือกแถว และเมื่อเสร็จสมบูรณ์ คุณจะเห็นตาราง Lakehouse ใหม่ของคุณสร้างขึ้นตามที่กําหนดค่าไว้ใน ปลายทางข้อมูล การตั้งค่า
ตรวจสอบเลคเฮ้าส์ของคุณเพื่อดูตารางใหม่ที่โหลดไว้ที่นั่น
เนื้อหาที่เกี่ยวข้อง
ในมอดูลที่สองสําหรับบทช่วยสอนแบบ end-to-end ของเราสําหรับการรวมข้อมูลครั้งแรกของคุณโดยใช้ Data Factory ใน Microsoft Fabric คุณได้เรียนรู้วิธีการ:
- สร้าง กระแสข้อมูล Gen2 ใหม่
- นําเข้าและแปลงข้อมูลตัวอย่าง
- นําเข้าและแปลงข้อมูลข้อความ/CSV
- ผสานข้อมูลจากแหล่งข้อมูลทั้งสองลงในคิวรีใหม่
- แปลงข้อมูลและสร้างคอลัมน์ใหม่ในคิวรี
- กําหนดค่าต้นทางปลายทางผลลัพธ์สําหรับคิวรี
- เปลี่ยนชื่อและรีเฟรชกระแสข้อมูลใหม่ของคุณ
ดําเนินการต่อไปยังส่วนถัดไปตอนนี้เพื่อรวมไปป์ไลน์ข้อมูลของคุณ
Module 3: ทํางานโดยอัตโนมัติและส่งการแจ้งเตือนด้วย Data Factory