ฝึกแบบจําลองการเรียนรู้ของเครื่อง
Apache Spark - เป็นส่วนหนึ่งของ Microsoft Fabric - ช่วยให้การเรียนรู้ของเครื่องด้วยข้อมูลขนาดใหญ่ ด้วย Apache Spark คุณสามารถสร้างข้อมูลเชิงลึกที่มีประโยชน์ลงในข้อมูลที่มีโครงสร้าง ไม่มีโครงสร้าง และการเคลื่อนไหวที่รวดเร็วจํานวนมากได้ คุณมีตัวเลือกไลบรารีโอเพนซอร์สที่พร้อมใช้งานหลายตัวเลือกเมื่อคุณฝึกแบบจําลองการเรียนรู้ของเครื่องด้วย Apache Spark ใน Microsoft Fabric: Apache Spark MLlib, SynapseML และอื่น ๆ
Apache SparkML และ MLlib
Apache Spark - เป็นส่วนหนึ่งของ Microsoft Fabric - มีเฟรมเวิร์กการประมวลผลข้อมูลแบบครบวงจรและเป็นโอเพนซอร์สแบบขนาน เฟรมเวิร์กนี้สนับสนุนการประมวลผลในหน่วยความจําที่เพิ่มการวิเคราะห์ข้อมูลขนาดใหญ่ กลไกการประมวลผล Spark ถูกสร้างขึ้นสําหรับความเร็ว ความสะดวกในการใช้งาน และการวิเคราะห์ที่ซับซ้อน ความสามารถในการคํานวณแบบกระจายในหน่วยความจําของ Spark ทําให้เป็นตัวเลือกที่ดีสําหรับอัลกอริทึมแบบวนซ้ําที่ใช้การเรียนรู้ของเครื่องและการคํานวณกราฟ
ไลบรารีการเรียนรู้ของ เครื่องที่ปรับขนาดได้ของ MLlib และ SparkML นําความสามารถในการสร้างแบบจําลองอัลกอริทึมมาสู่สภาพแวดล้อมแบบกระจายนี้ MLlib ประกอบด้วย API ต้นฉบับที่สร้างขึ้นที่ด้านบนของ RDDs SparkML เป็นแพคเกจที่ใหม่กว่า ซึ่งมี API ระดับสูงที่สร้างขึ้นที่ด้านบนของ DataFrames สําหรับการสร้างไปป์ไลน์ ML SparkML ยังไม่รองรับคุณลักษณะทั้งหมดของ MLlib แต่จะแทนที่ MLlib เป็นไลบรารีการเรียนรู้ของเครื่อง Spark มาตรฐาน
หมายเหตุ
สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการสร้างแบบจําลอง SparkML โปรดเยี่ยมชมแบบจําลองรถไฟที่มีทรัพยากร Apache Spark MLlib
ไลบรารียอดนิยม
รันไทม์ Microsoft Fabric สําหรับ Apache Spark มีแพคเกจโอเพนซอร์สที่ได้รับความนิยมมากมายสําหรับแบบจําลองการเรียนรู้ของเครื่องฝึกสอน ไลบรารีเหล่านี้มีโค้ดที่สามารถนํากลับมาใช้ใหม่ได้ซึ่งคุณสามารถรวมไว้ในโปรแกรมหรือโครงการของคุณได้ รันไทม์ประกอบด้วยไลบรารีการเรียนรู้ของเครื่องที่เกี่ยวข้องเหล่านี้ และอื่น ๆ:
Scikit-learn - หนึ่งในไลบรารีการเรียนรู้ของเครื่องโหนดเดียวที่ได้รับความนิยมมากที่สุดสําหรับอัลกอริทึม ML แบบคลาสสิก Scikit-learn สนับสนุนอัลกอริทึมการเรียนรู้แบบควบคุมและไม่ได้ใช้งานมากที่สุด และสามารถจัดการการทําเหมืองข้อมูลและการวิเคราะห์ข้อมูลได้
XGBoost - ไลบรารีการเรียนรู้ของเครื่องยอดนิยมที่มีอัลกอริทึมที่เหมาะสมสําหรับต้นไม้แห่งการตัดสินใจการฝึกอบรมและป่าแบบสุ่ม
PyTorch และ Tensorflow เป็นไลบรารีการเรียนรู้เชิงลึกของ Python ที่มีประสิทธิภาพ ด้วยไลบรารีเหล่านี้ คุณสามารถตั้งค่าจํานวนผู้ปฏิบัติการบนพูลของคุณเป็นศูนย์เพื่อสร้างแบบจําลองแบบเครื่องเดียวได้ แม้ว่าการกําหนดค่านั้นจะไม่สนับสนุน Apache Spark แต่ก็เป็นวิธีที่ง่ายและคุ้มค่าในการสร้างแบบจําลองเครื่องเดียว
SynapseML
ไลบรารีโอเพนซอร์ส SynapseML (ก่อนหน้านี้เรียกว่า MMLSpark) ช่วยลดความซับซ้อนของการสร้างไปป์ไลน์การเรียนรู้ของเครื่องที่ปรับขนาดได้อย่างมาก (ML) ด้วยการใช้นักวิทยาศาสตร์ข้อมูลของ Spark จะมีประสิทธิภาพมากขึ้นเนื่องจากไลบรารีนั้นเพิ่มอัตราการทดลองและใช้เทคนิคการเรียนรู้ของเครื่องที่ทันสมัย รวมถึงการเรียนรู้เชิงลึกบนชุดข้อมูลขนาดใหญ่
SynapseML มีเลเยอร์เหนือ API ระดับต่ําของ SparkML เมื่อสร้างแบบจําลอง ML ที่ปรับขนาดได้ API เหล่านี้ทําดัชนีสตริง แอสเซมบลีเวกเตอร์คุณลักษณะ การแปลงข้อมูลเป็นเค้าโครงที่เหมาะสมสําหรับอัลกอริทึมการเรียนรู้ของเครื่อง และอื่น ๆ ไลบรารี SynapseML ช่วยลดความซับซ้อนเหล่านี้และงานทั่วไปอื่น ๆ สําหรับการสร้างแบบจําลองใน PySpark
เนื้อหาที่เกี่ยวข้อง
บทความนี้ให้ภาพรวมของตัวเลือกต่าง ๆ ที่พร้อมใช้งานเพื่อฝึกแบบจําลองการเรียนรู้ของเครื่องภายใน Apache Spark ใน Microsoft Fabric สําหรับข้อมูลเพิ่มเติมเกี่ยวกับการฝึกแบบจําลอง โปรดเยี่ยมชมแหล่งข้อมูลเหล่านี้:
- ใช้ตัวอย่าง AI เพื่อสร้างแบบจําลองการเรียนรู้ของเครื่อง: ใช้ตัวอย่าง AI
- ติดตามการทํางานของการเรียนรู้ของเครื่องโดยใช้การทดลอง: การทดลองการเรียนรู้ของเครื่อง