การใช้โมเดลภาษา
องค์กรและนักพัฒนาสามารถฝึกโมเดลภาษาของตนเองได้ตั้งแต่เริ่มต้น แต่ในกรณีส่วนใหญ่ จะเป็นการใช้โมเดลพื้นฐานที่มีอยู่แล้ว และปรับแต่งด้วยข้อมูลการฝึกของคุณเอง มีแหล่งข้อมูลโมเดลมากมายที่คุณสามารถนำมาใช้ได้
บน Microsoft Azure คุณสามารถค้นหาโมเดลพื้นฐานในบริการ Azure OpenAI และในแค็ตตาล็อกโมเดลได้ แค็ตตาล็อกโมเดลนี้เป็นแหล่งที่รวบรวมโมเดลสําหรับนักวิทยาศาสตร์ข้อมูลและนักพัฒนาโดยใช้ Azure AI Studio และ Azure Machine Learning ซึ่งเสนอคุณประโยชน์จากโมเดลภาษาล้ำสมัย เช่น คอลเลกชันโมเดล Generative Pre-trained Transformer (GPT) (ซึ่งเป็นไปตามบริการ ChatGPT และบริการ AI สร้างสรรค์ของ Microsoft) เช่นเดียวกับโมเดล DALL-E สําหรับการสร้างรูปภาพ การใช้โมเดลเหล่านี้จากบริการ Azure OpenAI หมายความว่าคุณจะได้รับประโยชน์จากแพลตฟอร์มระบบคลาวด์ Azure ที่ปลอดภัยและปรับขนาดได้ซึ่งโฮสต์โมเดลดังกล่าวไว้
นอกเหนือจากโมเดล Azure OpenAI แล้ว แค็ตตาล็อกโมเดลยังประกอบด้วยโมเดลโอเพนซอร์สล่าสุดจาก Microsoft และคู่ค้าหลายรายอีกด้วย ได้แก่:
- OpenAI
- HuggingFace
- Mistral
- Meta และรายอื่นๆ
แบบจําลอง Azure OpenAI ทั่วไปบางตัว ได้แก่:
- GPT-3.5-Turbo, GPT-4, และ GPT-4o: แบบจำลองภาษาในรูปแบบการสนทนาขาเข้าและข้อความขาออก
- GPT-4 Turbo พร้อมกล้อง: แบบจำลองภาษาที่พัฒนาโดย OpenAI ที่สามารถวิเคราะห์ภาพและให้คําตอบเป็นข้อความสําหรับคําถามเกี่ยวกับภาพเหล่านั้น ซึ่งรวมการประมวลผลภาษาธรรมชาติและการทําความเข้าใจภาพเข้าด้วยกัน
- DALL-E: แบบจําลองภาษาที่สร้างรูปภาพต้นฉบับ รูปแบบรูปภาพต่าง ๆ และสามารถแก้ไขรูปภาพได้
โมเดลภาษาขนาดใหญ่และขนาดเล็ก
มีโมเดลภาษามากมายที่คุณสามารถใช้เพื่อยกระดับแอปพลิเคชัน AI สร้างสรรค์ได้ โดยทั่วไปแล้ว สามารถพิจารณาแบ่งโมเดลภาษาออกเป็นสองประเภท ได้แก่ โมเดลภาษาขนาดใหญ่ (LLM) และ โมเดลภาษาขนาดเล็ก (SLM)
โมเดลภาษาขนาดใหญ่ (LLM) | โมเดลภาษาขนาดเล็ก (SLM) |
---|---|
LLM จะได้รับการฝึกด้วยข้อความจํานวนมากที่แสดงถึงเนื้อหาเรื่องทั่วไปหลากหลายแบบ โดยทั่วไปแล้วจะเป็นการจัดหาข้อมูลจากอินเทอร์เน็ตและสิ่งตีพิมพ์ที่มีอยู่โดยทั่วไป | SLM จะได้รับการฝึกด้วยชุดข้อมูลที่มีขนาดเล็กกว่าและเน้นเรื่องใดเรื่องหนึ่งมากกว่า |
เมื่อได้รับการฝึกแล้ว LLM จะมีพารามิเตอร์หลายพันล้าน (อาจจะถึงล้านล้าน) รายการ (น้ำหนักที่สามารถนําไปใช้กับการฝังเวกเตอร์เพื่อคํานวณลําดับโทเค็นที่คาดการณ์ไว้) | โดยทั่วไปแล้วจะมีพารามิเตอร์น้อยกว่า LLM |
สามารถแสดงขีดความสามารถด้านการสร้างภาษาที่ครอบคลุมในบริบทการสนทนาที่หลากหลาย | คําศัพท์แบบมุ่งเน้นนี้ช่วยให้โมเดลนี้มีประสิทธิภาพอย่างมากในหัวข้อการสนทนาเฉพาะ แต่จะมีประสิทธิภาพน้อยกว่าในการสร้างภาษาทั่วไป |
ขนาดที่ใหญ่อาจส่งผลกระทบต่อประสิทธิภาพ และทําให้ยากต่อการปรับใช้ภายในอุปกรณ์และคอมพิวเตอร์ในพื้นที่ | SLM ที่มีขนาดเล็กกว่านั้นมีตัวเลือกการปรับใช้มากกว่า รวมถึงการปรับใช้ในพื้นที่ไปยังอุปกรณ์และคอมพิวเตอร์ภายในองค์กร และช่วยให้การปรับแต่งเร็วขึ้นและง่ายขึ้นด้วย |
การปรับแต่งโมเดลอย่างละเอียดด้วยข้อมูลเพิ่มเติมเพื่อปรับแต่งความเชี่ยวชาญเฉพาะหัวข้อนั้นอาจต้องใช้เวลานานและมีค่าใช้จ่ายสูงในแง่ของกำลังการประมวลผลที่จําเป็นสําหรับการดําเนินการฝึกเพิ่มเติม | การปรับแต่งละเอียดอาจใช้เวลาน้อยและมีค่าใช้จ่ายน้อยกว่านี้ได้ |