การใช้โมเดลภาษา

เสร็จสมบูรณ์เมื่อ

องค์กรและนักพัฒนาสามารถฝึกโมเดลภาษาของตนเองได้ตั้งแต่เริ่มต้น แต่ในกรณีส่วนใหญ่ จะเป็นการใช้โมเดลพื้นฐานที่มีอยู่แล้ว และปรับแต่งด้วยข้อมูลการฝึกของคุณเอง มีแหล่งข้อมูลโมเดลมากมายที่คุณสามารถนำมาใช้ได้

บน Microsoft Azure คุณสามารถค้นหาโมเดลพื้นฐานในบริการ Azure OpenAI และในแค็ตตาล็อกโมเดลได้ แค็ตตาล็อกโมเดลนี้เป็นแหล่งที่รวบรวมโมเดลสําหรับนักวิทยาศาสตร์ข้อมูลและนักพัฒนาโดยใช้ Azure AI Studio และ Azure Machine Learning ซึ่งเสนอคุณประโยชน์จากโมเดลภาษาล้ำสมัย เช่น คอลเลกชันโมเดล Generative Pre-trained Transformer (GPT) (ซึ่งเป็นไปตามบริการ ChatGPT และบริการ AI สร้างสรรค์ของ Microsoft) เช่นเดียวกับโมเดล DALL-E สําหรับการสร้างรูปภาพ การใช้โมเดลเหล่านี้จากบริการ Azure OpenAI หมายความว่าคุณจะได้รับประโยชน์จากแพลตฟอร์มระบบคลาวด์ Azure ที่ปลอดภัยและปรับขนาดได้ซึ่งโฮสต์โมเดลดังกล่าวไว้

นอกเหนือจากโมเดล Azure OpenAI แล้ว แค็ตตาล็อกโมเดลยังประกอบด้วยโมเดลโอเพนซอร์สล่าสุดจาก Microsoft และคู่ค้าหลายรายอีกด้วย ได้แก่:

  • OpenAI
  • HuggingFace
  • Mistral
  • Meta และรายอื่นๆ

แบบจําลอง Azure OpenAI ทั่วไปบางตัว ได้แก่:

  • GPT-3.5-Turbo, GPT-4, และ GPT-4o: แบบจำลองภาษาในรูปแบบการสนทนาขาเข้าและข้อความขาออก
  • GPT-4 Turbo พร้อมกล้อง: แบบจำลองภาษาที่พัฒนาโดย OpenAI ที่สามารถวิเคราะห์ภาพและให้คําตอบเป็นข้อความสําหรับคําถามเกี่ยวกับภาพเหล่านั้น ซึ่งรวมการประมวลผลภาษาธรรมชาติและการทําความเข้าใจภาพเข้าด้วยกัน
  • DALL-E: แบบจําลองภาษาที่สร้างรูปภาพต้นฉบับ รูปแบบรูปภาพต่าง ๆ และสามารถแก้ไขรูปภาพได้

โมเดลภาษาขนาดใหญ่และขนาดเล็ก

มีโมเดลภาษามากมายที่คุณสามารถใช้เพื่อยกระดับแอปพลิเคชัน AI สร้างสรรค์ได้ โดยทั่วไปแล้ว สามารถพิจารณาแบ่งโมเดลภาษาออกเป็นสองประเภท ได้แก่ โมเดลภาษาขนาดใหญ่ (LLM) และ โมเดลภาษาขนาดเล็ก (SLM)

โมเดลภาษาขนาดใหญ่ (LLM) โมเดลภาษาขนาดเล็ก (SLM)
LLM จะได้รับการฝึกด้วยข้อความจํานวนมากที่แสดงถึงเนื้อหาเรื่องทั่วไปหลากหลายแบบ โดยทั่วไปแล้วจะเป็นการจัดหาข้อมูลจากอินเทอร์เน็ตและสิ่งตีพิมพ์ที่มีอยู่โดยทั่วไป SLM จะได้รับการฝึกด้วยชุดข้อมูลที่มีขนาดเล็กกว่าและเน้นเรื่องใดเรื่องหนึ่งมากกว่า
เมื่อได้รับการฝึกแล้ว LLM จะมีพารามิเตอร์หลายพันล้าน (อาจจะถึงล้านล้าน) รายการ (น้ำหนักที่สามารถนําไปใช้กับการฝังเวกเตอร์เพื่อคํานวณลําดับโทเค็นที่คาดการณ์ไว้) โดยทั่วไปแล้วจะมีพารามิเตอร์น้อยกว่า LLM
สามารถแสดงขีดความสามารถด้านการสร้างภาษาที่ครอบคลุมในบริบทการสนทนาที่หลากหลาย คําศัพท์แบบมุ่งเน้นนี้ช่วยให้โมเดลนี้มีประสิทธิภาพอย่างมากในหัวข้อการสนทนาเฉพาะ แต่จะมีประสิทธิภาพน้อยกว่าในการสร้างภาษาทั่วไป
ขนาดที่ใหญ่อาจส่งผลกระทบต่อประสิทธิภาพ และทําให้ยากต่อการปรับใช้ภายในอุปกรณ์และคอมพิวเตอร์ในพื้นที่ SLM ที่มีขนาดเล็กกว่านั้นมีตัวเลือกการปรับใช้มากกว่า รวมถึงการปรับใช้ในพื้นที่ไปยังอุปกรณ์และคอมพิวเตอร์ภายในองค์กร และช่วยให้การปรับแต่งเร็วขึ้นและง่ายขึ้นด้วย
การปรับแต่งโมเดลอย่างละเอียดด้วยข้อมูลเพิ่มเติมเพื่อปรับแต่งความเชี่ยวชาญเฉพาะหัวข้อนั้นอาจต้องใช้เวลานานและมีค่าใช้จ่ายสูงในแง่ของกำลังการประมวลผลที่จําเป็นสําหรับการดําเนินการฝึกเพิ่มเติม การปรับแต่งละเอียดอาจใช้เวลาน้อยและมีค่าใช้จ่ายน้อยกว่านี้ได้