แชร์ผ่าน


วิธีการเร่งการเตรียมข้อมูลด้วย Data Wrangler ใน Microsoft Fabric

เครื่องมือ Data Wrangler เป็นทรัพยากรที่ยึดตามสมุดบันทึกซึ่งมีส่วนติดต่อที่ลึกซึงสําหรับการวิเคราะห์ข้อมูลเชิงสํารวจ ซึ่งรวมถึงการแสดงผลข้อมูลที่คล้ายกับเส้นตารางด้วยสถิติสรุปแบบไดนามิก การแสดงภาพที่มีอยู่ภายใน และไลบรารีของการดําเนินการทําความสะอาดข้อมูลทั่วไป คุณสามารถใช้การดําเนินการแต่ละรายการด้วยขั้นตอนไม่กี่ขั้นตอน คุณสามารถอัปเดตการแสดงผลข้อมูลแบบเรียลไทม์ และสร้างโค้ดใน Pandas หรือ PySpark ที่คุณสามารถบันทึกกลับไปยังสมุดบันทึกเป็นฟังก์ชันที่นํากลับมาใช้ใหม่ได้ บทความนี้มุ่งเน้นไปที่การสํารวจและการแปลง DataFrame ของ pandas สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้ Data Wrangler บน Spark DataFrames โปรดเยี่ยมชม แหล่งข้อมูลนี้

ข้อกำหนดเบื้องต้น

ข้อจำกัด

  • การดําเนินการโค้ดแบบกําหนดเองได้รับการสนับสนุนสําหรับ pandas DataFrames เท่านั้น
  • จอแสดงผล Data Wrangler ทํางานได้ดีที่สุดบนจอภาพขนาดใหญ่ แม้ว่าคุณสามารถย่อหรือซ่อนส่วนต่างๆ ของอินเทอร์เฟซเพื่อรองรับหน้าจอที่มีขนาดเล็กลงได้

เปิดใช้ Data Wrangler

คุณสามารถเปิดใช้ Data Wrangler ได้โดยตรงจากสมุดบันทึก Microsoft Fabric เพื่อสํารวจและแปลง pandas หรือ Spark DataFrame สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้ Data Wrangler กับ Spark DataFrames โปรดเยี่ยมชม บทความสหายนี้ ส่วนย่อยของโค้ดนี้แสดงวิธีการอ่านข้อมูลตัวอย่างลงใน Pandas DataFrame:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

ในริบบอนสมุดบันทึกแท็บ "หน้าแรก" ใช้พร้อมท์ดรอปดาวน์ Data Wrangler เพื่อเรียกดู DataFrames ที่ใช้งานอยู่ซึ่งพร้อมสําหรับการแก้ไข เลือกรายการที่คุณต้องการเปิดใน Data Wrangler

เคล็ดลับ

ไม่สามารถเปิด Data Wrangler ได้ในขณะที่เคอร์เนลสมุดบันทึกไม่ว่าง เซลล์ที่ดําเนินการต้องดําเนินการให้เสร็จสิ้นก่อนที่ Data Wrangler จะสามารถเปิดใช้งานได้ ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงสมุดบันทึก Fabric ที่มีพร้อมท์ดรอปดาวน์ Data Wrangler

การเลือกตัวอย่างแบบกําหนดเอง

หากต้องการเปิดตัวอย่างแบบกําหนดเองของ DataFrame ที่ใช้งานอยู่ด้วย Data Wrangler ให้เลือก "เลือกตัวอย่างแบบกําหนดเอง" จากดรอปดาวน์ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงข้อความดรอปดาวน์ Data Wrangler พร้อมตัวเลือกตัวอย่างแบบกําหนดเองที่ระบุไว้

การดําเนินการนี้จะเปิดใช้ป็อปอัพด้วยตัวเลือกเพื่อระบุขนาดของตัวอย่างที่ต้องการ (จํานวนแถว) และวิธีการสุ่มตัวอย่าง (เรกคอร์ดแรก เรคคอร์ดสุดท้าย หรือชุดแบบสุ่ม) 5,000 แถวแรกของ DataFrame ทําหน้าที่เป็นขนาดตัวอย่างเริ่มต้น ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงพร้อมท์ตัวอย่างแบบกําหนดเองของ Data Wrangler

การดูสถิติสรุป

เมื่อโหลด Data Wrangler จะแสดงภาพรวมเชิงพรรณนาของ DataFrame ที่เลือกในแผง "สรุป" ภาพรวมนี้ประกอบด้วยข้อมูลเกี่ยวกับมิติ DataFrame ค่าที่ขาดหายไป และอื่น ๆ การเลือกคอลัมน์ใด ๆ ในตาราง Data Wrangler จะพร้อมท์แผง "สรุป" เพื่ออัปเดตและแสดงสถิติที่เป็นคําอธิบายเกี่ยวกับคอลัมน์ที่เฉพาะเจาะจง ข้อมูลเชิงลึกด่วนเกี่ยวกับทุกคอลัมน์จะพร้อมใช้งานในส่วนหัวด้วย

เคล็ดลับ

สถิติและวิชวลเฉพาะคอลัมน์ (ทั้งในแผง "สรุป" และในส่วนหัวของคอลัมน์) จะขึ้นอยู่กับชนิดข้อมูลของคอลัมน์ ตัวอย่างเช่น ฮิสโทแกรมที่ผูกไว้ของคอลัมน์ตัวเลขจะปรากฏในส่วนหัวของคอลัมน์ก็ต่อเมื่อคอลัมน์ถูกแปลงเป็นชนิดตัวเลขดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงบานหน้าต่างแสดงเส้นตารางและสรุปของ Data Wrangler

การเรียกดูการดําเนินการทําความสะอาดข้อมูล

รายการขั้นตอนการทําความสะอาดข้อมูลที่สามารถค้นหาได้สามารถพบได้ในแผง "การดําเนินการ" จากแผง "การดําเนินการ" การเลือกขั้นตอนการทําความสะอาดข้อมูลจะพร้อมท์ให้คุณระบุคอลัมน์เป้าหมายหรือคอลัมน์พร้อมกับพารามิเตอร์ที่จําเป็นเพื่อทําตามขั้นตอน ตัวอย่างเช่น พร้อมท์ให้ปรับขนาดคอลัมน์ตามตัวเลข จําเป็นต้องมีช่วงของค่าใหม่ ดังที่แสดงในสกรีนช็อตนี้:

สกรีนช็อตที่แสดงแผงการดําเนินงาน Data Wrangler

เคล็ดลับ

คุณสามารถใช้การดําเนินการที่มีขนาดเล็กกว่าจากเมนูของแต่ละส่วนหัวของคอลัมน์ ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงการดําเนินการ Data Wrangler ที่สามารถนําไปใช้จากเมนูส่วนหัวของคอลัมน์ได้

การแสดงตัวอย่างและการใช้การดําเนินการ

Data Wrangler แสดงเส้นตารางโดยอัตโนมัติแสดงตัวอย่างผลลัพธ์ของการดําเนินการที่เลือก และรหัสที่สอดคล้องกันจะปรากฏในแผงด้านล่างเส้นตารางโดยอัตโนมัติ หากต้องการยอมรับโค้ดที่แสดงตัวอย่าง ให้เลือก "นําไปใช้" ในที่ใดที่หนึ่ง หากต้องการลบโค้ดที่แสดงตัวอย่างและลองใช้การดําเนินการใหม่ ให้เลือก "ละทิ้ง" ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงการดําเนินการของ Data Wrangler ที่กําลังดําเนินการ

เมื่อการดําเนินการถูกนําไปใช้ Data Wrangler จะแสดงการอัปเดตตารางและสถิติสรุปเพื่อแสดงผลลัพธ์ รหัสจะปรากฏในรายการการดําเนินการที่ผูกมัดซึ่งอยู่ในแผง "ขั้นตอนการทําความสะอาด" ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงการดําเนินการของ Data Wrangler ที่ใช้

เคล็ดลับ

คุณสามารถยกเลิกขั้นตอนที่ใช้ล่าสุดได้เสมอ ในแผง "ขั้นตอนการทําความสะอาด" ไอคอนถังขยะจะปรากฏขึ้นหากคุณเลื่อนเคอร์เซอร์ของคุณเหนือขั้นตอนที่ใช้ล่าสุดดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงการดําเนินการ Data Wrangler ที่สามารถยกเลิกได้

ตารางนี้สรุปการดําเนินการที่ Data Wrangler สนับสนุนในขณะนี้:

การดำเนินการ คำอธิบาย:
จัดเรียง เรียงลําดับคอลัมน์จากน้อยไปหามากหรือจากมากไปหาน้อย
ตัวกรอง กรองแถวโดยยึดตามเงื่อนไขอย่างน้อยหนึ่งข้อ
เข้ารหัสหนึ่งร้อน สร้างคอลัมน์ใหม่สําหรับแต่ละค่าที่ไม่ซ้ํากันในคอลัมน์ที่มีอยู่ ที่ระบุการมีอยู่หรือไม่มีค่าเหล่านั้นสําหรับแต่ละแถว
การเข้ารหัสที่ร้อนด้วยตัวคั่น แยกและเข้ารหัสข้อมูลตามประเภทอย่างหนึ่งร้อนโดยใช้ตัวคั่น
เปลี่ยนชนิดคอลัมน์ เปลี่ยนชนิดข้อมูลของคอลัมน์
ปล่อยคอลัมน์ ลบคอลัมน์อย่างน้อยหนึ่งคอลัมน์
เลือกคอลัมน์ เลือกหนึ่งหรือหลายคอลัมน์เพื่อเก็บ และลบส่วนที่เหลือ
เปลี่ยนชื่อคอลัมน์ เปลี่ยนชื่อคอลัมน์
ปล่อยค่าที่หายไป ลบแถวที่มีค่าที่ขาดหายไป
ทิ้งแถวที่ซ้ํากัน วางแถวทั้งหมดที่มีค่าที่ซ้ํากันในหนึ่งคอลัมน์หรือมากกว่า
เติมค่าที่หายไป แทนที่เซลล์ด้วยค่าที่หายไปด้วยค่าใหม่
ค้นหาและแทนที่ แทนที่เซลล์ด้วยรูปแบบที่ตรงกัน
จัดกลุ่มตามคอลัมน์และรวม จัดกลุ่มตามค่าคอลัมน์และรวมผลลัพธ์
แถบช่องว่าง เอาช่องว่างออกจากส่วนเริ่มต้นและส่วนท้ายของข้อความ
แยกข้อความ แยกคอลัมน์ออกเป็นหลายคอลัมน์โดยยึดตามตัวคั่นที่ผู้ใช้กําหนดเอง
แปลงข้อความเป็นตัวพิมพ์เล็ก แปลงข้อความเป็นตัวพิมพ์เล็ก
แปลงข้อความเป็นตัวพิมพ์ใหญ่ แปลงข้อความเป็นตัวพิมพ์ใหญ่
ค่าต่ําสุด/สูงสุดของสเกล ปรับมาตราส่วนคอลัมน์ตัวเลขระหว่างค่าต่ําสุดและสูงสุด
การเติมแฟลช สร้างคอลัมน์ใหม่โดยอัตโนมัติตามตัวอย่างที่สืบทอดมาจากคอลัมน์ที่มีอยู่

ปรับเปลี่ยนจอแสดงผลของคุณ

คุณสามารถกําหนดอินเทอร์เฟซด้วยแท็บ "มุมมอง" ในแถบเครื่องมือที่อยู่เหนือเส้นตารางแสดงผล Data Wrangler ได้ตลอดเวลา ซึ่งสามารถซ่อนหรือแสดงบานหน้าต่างต่าง ๆ ตามการกําหนดลักษณะและขนาดหน้าจอของคุณ ดังที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตที่แสดงเมนู Data Wrangler สําหรับการกําหนดมุมมองการแสดงผล

การบันทึกและการส่งออกรหัส

แถบเครื่องมือด้านบนเส้นตารางการแสดงผล Data Wrangler มีตัวเลือกในการบันทึกรหัสที่สร้างขึ้น คุณสามารถคัดลอกโค้ดไปยังคลิปบอร์ด หรือส่งออกไปยังสมุดบันทึกเป็นฟังก์ชันได้ การส่งออกโค้ดจะปิด Data Wrangler และเพิ่มฟังก์ชันใหม่ไปยังเซลล์โค้ดในสมุดบันทึก คุณยังสามารถดาวน์โหลด DataFrame ที่ได้รับการทําความสะอาดแล้วเป็นไฟล์ csv ได้

เคล็ดลับ

Data Wrangler สร้างโค้ดที่นําไปใช้เฉพาะเมื่อคุณเรียกใช้เซลล์ใหม่ด้วยตนเอง และจะไม่เขียนทับ DataFrame เดิมของคุณ ดังที่แสดงในสกรีนช็อตนี้:

สกรีนช็อตแสดงตัวเลือกในการส่งออกรหัสใน Data Wrangler

จากนั้นคุณสามารถเรียกใช้โค้ดที่ส่งออกตามที่แสดงในภาพหน้าจอนี้:

สกรีนช็อตแสดงรหัสที่สร้างขึ้นโดย Data Wrangler กลับในสมุดบันทึก