วิธีการเร่งการเตรียมข้อมูลด้วย Data Wrangler ใน Microsoft Fabric
เครื่องมือ Data Wrangler เป็นทรัพยากรที่ยึดตามสมุดบันทึกซึ่งมีส่วนติดต่อที่ลึกซึงสําหรับการวิเคราะห์ข้อมูลเชิงสํารวจ ซึ่งรวมถึงการแสดงผลข้อมูลที่คล้ายกับเส้นตารางด้วยสถิติสรุปแบบไดนามิก การแสดงภาพที่มีอยู่ภายใน และไลบรารีของการดําเนินการทําความสะอาดข้อมูลทั่วไป คุณสามารถใช้การดําเนินการแต่ละรายการด้วยขั้นตอนไม่กี่ขั้นตอน คุณสามารถอัปเดตการแสดงผลข้อมูลแบบเรียลไทม์ และสร้างโค้ดใน Pandas หรือ PySpark ที่คุณสามารถบันทึกกลับไปยังสมุดบันทึกเป็นฟังก์ชันที่นํากลับมาใช้ใหม่ได้ บทความนี้มุ่งเน้นไปที่การสํารวจและการแปลง DataFrame ของ pandas สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้ Data Wrangler บน Spark DataFrames โปรดเยี่ยมชม แหล่งข้อมูลนี้
ข้อกำหนดเบื้องต้น
รับการสมัครใช้งาน Microsoft Fabric หรือลงทะเบียนเพื่อทดลองใช้งาน Microsoft Fabric ฟรี
ลงชื่อเข้าใช้ Microsoft Fabric
ใช้ตัวสลับประสบการณ์ทางด้านซ้ายของโฮมเพจของคุณเพื่อสลับไปยังประสบการณ์วิทยาศาสตร์ข้อมูล Synapse
ข้อจำกัด
- การดําเนินการโค้ดแบบกําหนดเองได้รับการสนับสนุนสําหรับ pandas DataFrames เท่านั้น
- จอแสดงผล Data Wrangler ทํางานได้ดีที่สุดบนจอภาพขนาดใหญ่ แม้ว่าคุณสามารถย่อหรือซ่อนส่วนต่างๆ ของอินเทอร์เฟซเพื่อรองรับหน้าจอที่มีขนาดเล็กลงได้
เปิดใช้ Data Wrangler
คุณสามารถเปิดใช้ Data Wrangler ได้โดยตรงจากสมุดบันทึก Microsoft Fabric เพื่อสํารวจและแปลง pandas หรือ Spark DataFrame สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้ Data Wrangler กับ Spark DataFrames โปรดเยี่ยมชม บทความสหายนี้ ส่วนย่อยของโค้ดนี้แสดงวิธีการอ่านข้อมูลตัวอย่างลงใน Pandas DataFrame:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
ในริบบอนสมุดบันทึกแท็บ "หน้าแรก" ใช้พร้อมท์ดรอปดาวน์ Data Wrangler เพื่อเรียกดู DataFrames ที่ใช้งานอยู่ซึ่งพร้อมสําหรับการแก้ไข เลือกรายการที่คุณต้องการเปิดใน Data Wrangler
เคล็ดลับ
ไม่สามารถเปิด Data Wrangler ได้ในขณะที่เคอร์เนลสมุดบันทึกไม่ว่าง เซลล์ที่ดําเนินการต้องดําเนินการให้เสร็จสิ้นก่อนที่ Data Wrangler จะสามารถเปิดใช้งานได้ ดังที่แสดงในภาพหน้าจอนี้:
การเลือกตัวอย่างแบบกําหนดเอง
หากต้องการเปิดตัวอย่างแบบกําหนดเองของ DataFrame ที่ใช้งานอยู่ด้วย Data Wrangler ให้เลือก "เลือกตัวอย่างแบบกําหนดเอง" จากดรอปดาวน์ดังที่แสดงในภาพหน้าจอนี้:
การดําเนินการนี้จะเปิดใช้ป็อปอัพด้วยตัวเลือกเพื่อระบุขนาดของตัวอย่างที่ต้องการ (จํานวนแถว) และวิธีการสุ่มตัวอย่าง (เรกคอร์ดแรก เรคคอร์ดสุดท้าย หรือชุดแบบสุ่ม) 5,000 แถวแรกของ DataFrame ทําหน้าที่เป็นขนาดตัวอย่างเริ่มต้น ดังที่แสดงในภาพหน้าจอนี้:
การดูสถิติสรุป
เมื่อโหลด Data Wrangler จะแสดงภาพรวมเชิงพรรณนาของ DataFrame ที่เลือกในแผง "สรุป" ภาพรวมนี้ประกอบด้วยข้อมูลเกี่ยวกับมิติ DataFrame ค่าที่ขาดหายไป และอื่น ๆ การเลือกคอลัมน์ใด ๆ ในตาราง Data Wrangler จะพร้อมท์แผง "สรุป" เพื่ออัปเดตและแสดงสถิติที่เป็นคําอธิบายเกี่ยวกับคอลัมน์ที่เฉพาะเจาะจง ข้อมูลเชิงลึกด่วนเกี่ยวกับทุกคอลัมน์จะพร้อมใช้งานในส่วนหัวด้วย
เคล็ดลับ
สถิติและวิชวลเฉพาะคอลัมน์ (ทั้งในแผง "สรุป" และในส่วนหัวของคอลัมน์) จะขึ้นอยู่กับชนิดข้อมูลของคอลัมน์ ตัวอย่างเช่น ฮิสโทแกรมที่ผูกไว้ของคอลัมน์ตัวเลขจะปรากฏในส่วนหัวของคอลัมน์ก็ต่อเมื่อคอลัมน์ถูกแปลงเป็นชนิดตัวเลขดังที่แสดงในภาพหน้าจอนี้:
การเรียกดูการดําเนินการทําความสะอาดข้อมูล
รายการขั้นตอนการทําความสะอาดข้อมูลที่สามารถค้นหาได้สามารถพบได้ในแผง "การดําเนินการ" จากแผง "การดําเนินการ" การเลือกขั้นตอนการทําความสะอาดข้อมูลจะพร้อมท์ให้คุณระบุคอลัมน์เป้าหมายหรือคอลัมน์พร้อมกับพารามิเตอร์ที่จําเป็นเพื่อทําตามขั้นตอน ตัวอย่างเช่น พร้อมท์ให้ปรับขนาดคอลัมน์ตามตัวเลข จําเป็นต้องมีช่วงของค่าใหม่ ดังที่แสดงในสกรีนช็อตนี้:
เคล็ดลับ
คุณสามารถใช้การดําเนินการที่มีขนาดเล็กกว่าจากเมนูของแต่ละส่วนหัวของคอลัมน์ ดังที่แสดงในภาพหน้าจอนี้:
การแสดงตัวอย่างและการใช้การดําเนินการ
Data Wrangler แสดงเส้นตารางโดยอัตโนมัติแสดงตัวอย่างผลลัพธ์ของการดําเนินการที่เลือก และรหัสที่สอดคล้องกันจะปรากฏในแผงด้านล่างเส้นตารางโดยอัตโนมัติ หากต้องการยอมรับโค้ดที่แสดงตัวอย่าง ให้เลือก "นําไปใช้" ในที่ใดที่หนึ่ง หากต้องการลบโค้ดที่แสดงตัวอย่างและลองใช้การดําเนินการใหม่ ให้เลือก "ละทิ้ง" ดังที่แสดงในภาพหน้าจอนี้:
เมื่อการดําเนินการถูกนําไปใช้ Data Wrangler จะแสดงการอัปเดตตารางและสถิติสรุปเพื่อแสดงผลลัพธ์ รหัสจะปรากฏในรายการการดําเนินการที่ผูกมัดซึ่งอยู่ในแผง "ขั้นตอนการทําความสะอาด" ดังที่แสดงในภาพหน้าจอนี้:
เคล็ดลับ
คุณสามารถยกเลิกขั้นตอนที่ใช้ล่าสุดได้เสมอ ในแผง "ขั้นตอนการทําความสะอาด" ไอคอนถังขยะจะปรากฏขึ้นหากคุณเลื่อนเคอร์เซอร์ของคุณเหนือขั้นตอนที่ใช้ล่าสุดดังที่แสดงในภาพหน้าจอนี้:
ตารางนี้สรุปการดําเนินการที่ Data Wrangler สนับสนุนในขณะนี้:
การดำเนินการ | คำอธิบาย: |
---|---|
จัดเรียง | เรียงลําดับคอลัมน์จากน้อยไปหามากหรือจากมากไปหาน้อย |
ตัวกรอง | กรองแถวโดยยึดตามเงื่อนไขอย่างน้อยหนึ่งข้อ |
เข้ารหัสหนึ่งร้อน | สร้างคอลัมน์ใหม่สําหรับแต่ละค่าที่ไม่ซ้ํากันในคอลัมน์ที่มีอยู่ ที่ระบุการมีอยู่หรือไม่มีค่าเหล่านั้นสําหรับแต่ละแถว |
การเข้ารหัสที่ร้อนด้วยตัวคั่น | แยกและเข้ารหัสข้อมูลตามประเภทอย่างหนึ่งร้อนโดยใช้ตัวคั่น |
เปลี่ยนชนิดคอลัมน์ | เปลี่ยนชนิดข้อมูลของคอลัมน์ |
ปล่อยคอลัมน์ | ลบคอลัมน์อย่างน้อยหนึ่งคอลัมน์ |
เลือกคอลัมน์ | เลือกหนึ่งหรือหลายคอลัมน์เพื่อเก็บ และลบส่วนที่เหลือ |
เปลี่ยนชื่อคอลัมน์ | เปลี่ยนชื่อคอลัมน์ |
ปล่อยค่าที่หายไป | ลบแถวที่มีค่าที่ขาดหายไป |
ทิ้งแถวที่ซ้ํากัน | วางแถวทั้งหมดที่มีค่าที่ซ้ํากันในหนึ่งคอลัมน์หรือมากกว่า |
เติมค่าที่หายไป | แทนที่เซลล์ด้วยค่าที่หายไปด้วยค่าใหม่ |
ค้นหาและแทนที่ | แทนที่เซลล์ด้วยรูปแบบที่ตรงกัน |
จัดกลุ่มตามคอลัมน์และรวม | จัดกลุ่มตามค่าคอลัมน์และรวมผลลัพธ์ |
แถบช่องว่าง | เอาช่องว่างออกจากส่วนเริ่มต้นและส่วนท้ายของข้อความ |
แยกข้อความ | แยกคอลัมน์ออกเป็นหลายคอลัมน์โดยยึดตามตัวคั่นที่ผู้ใช้กําหนดเอง |
แปลงข้อความเป็นตัวพิมพ์เล็ก | แปลงข้อความเป็นตัวพิมพ์เล็ก |
แปลงข้อความเป็นตัวพิมพ์ใหญ่ | แปลงข้อความเป็นตัวพิมพ์ใหญ่ |
ค่าต่ําสุด/สูงสุดของสเกล | ปรับมาตราส่วนคอลัมน์ตัวเลขระหว่างค่าต่ําสุดและสูงสุด |
การเติมแฟลช | สร้างคอลัมน์ใหม่โดยอัตโนมัติตามตัวอย่างที่สืบทอดมาจากคอลัมน์ที่มีอยู่ |
ปรับเปลี่ยนจอแสดงผลของคุณ
คุณสามารถกําหนดอินเทอร์เฟซด้วยแท็บ "มุมมอง" ในแถบเครื่องมือที่อยู่เหนือเส้นตารางแสดงผล Data Wrangler ได้ตลอดเวลา ซึ่งสามารถซ่อนหรือแสดงบานหน้าต่างต่าง ๆ ตามการกําหนดลักษณะและขนาดหน้าจอของคุณ ดังที่แสดงในภาพหน้าจอนี้:
การบันทึกและการส่งออกรหัส
แถบเครื่องมือด้านบนเส้นตารางการแสดงผล Data Wrangler มีตัวเลือกในการบันทึกรหัสที่สร้างขึ้น คุณสามารถคัดลอกโค้ดไปยังคลิปบอร์ด หรือส่งออกไปยังสมุดบันทึกเป็นฟังก์ชันได้ การส่งออกโค้ดจะปิด Data Wrangler และเพิ่มฟังก์ชันใหม่ไปยังเซลล์โค้ดในสมุดบันทึก คุณยังสามารถดาวน์โหลด DataFrame ที่ได้รับการทําความสะอาดแล้วเป็นไฟล์ csv ได้
เคล็ดลับ
Data Wrangler สร้างโค้ดที่นําไปใช้เฉพาะเมื่อคุณเรียกใช้เซลล์ใหม่ด้วยตนเอง และจะไม่เขียนทับ DataFrame เดิมของคุณ ดังที่แสดงในสกรีนช็อตนี้:
จากนั้นคุณสามารถเรียกใช้โค้ดที่ส่งออกตามที่แสดงในภาพหน้าจอนี้:
เนื้อหาที่เกี่ยวข้อง
- หากต้องการลองใช้ Data Wrangler บน Spark DataFrames โปรดเยี่ยมชม บทความเกี่ยวกับมาด้วยนี้
- สําหรับการสาธิตการดําเนินการสดของ Data Wrangler ใน Fabric ตรวจสอบ วิดีโอนี้จากเพื่อนของเราที่ Guy in a Cube
- หากต้องการลองใช้ Data Wrangler ใน Visual Studio Code ให้ไปที่ Data Wrangler ใน VS Code
- เราพลาดคุณลักษณะที่คุณต้องการหรือไม่ แจ้งให้เราทราบ! แนะนําได้ที่ ฟอรั่ม Fabric Ideas