Použití jazykových modelů
Organizace a vývojáři můžou trénovat vlastní jazykové modely úplně od začátku, ale ve většině případů je praktičtější použít existující základní model a volitelně je doladit vlastními trénovacími daty. Existuje mnoho zdrojů modelu, které můžete použít.
V Microsoft Azure najdete základní modely ve službě Azure OpenAI a v katalogu modelů. Katalog modelů je kurátorovaný zdroj modelů pro datové vědce a vývojáře, kteří používají Azure AI Studio a Azure Machine Learning. To nabízí výhody špičkových jazykových modelů, jako je generování předem natrénovaných transformátorů (GPT) modelů (na kterých jsou založené služby ChatGPT a Microsoftu pro generování obrázků), a také model DALL-E pro generování obrázků. Použití těchto modelů ze služby Azure OpenAI znamená, že získáte také výhodu zabezpečené škálovatelné cloudové platformy Azure, ve které jsou modely hostované.
Kromě modelů Azure OpenAI zahrnuje katalog modelů nejnovější opensourcové modely od Microsoftu a více partnerů, mezi které patří:
- OpenAI
- HuggingFace
- Mistral
- Meta a další.
Mezi běžné modely Azure OpenAI patří:
- GPT-3.5-Turbo, GPT-4 a GPT-4o: Konverzační a message-out jazykové modely.
- GPT-4 Turbo s vision: Jazykový model vyvinutý openAI, který dokáže analyzovat obrázky a poskytovat textové odpovědi na otázky týkající se nich. Zahrnuje zpracování přirozeného jazyka i vizuální porozumění.
- DALL-E: Jazykový model, který generuje původní obrázky, varianty obrázků a může upravovat obrázky.
Velké a malé jazykové modely
K dispozici je mnoho jazykových modelů, které můžete použít k generování aplikací umělé inteligence. Obecně lze jazykové modely považovat za dvě kategorie: velké jazykové modely (LLM) a malé jazykové modely (SLM).
Velké jazykové modely (LLM) | Malé jazykové modely (SLM) |
---|---|
LLM jsou trénovány s velkým množstvím textu, který představuje širokou škálu obecných předmětů – obvykle získáváním dat z internetu a dalších obecně dostupných publikací. | SlM se trénují s menšími datovými sadami zaměřenými na předmět. |
Při trénování mají LLM mnoho miliard (dokonce i biliónů) parametrů (váhy, které lze použít u vektorových vkládání k výpočtu predikovaných sekvencí tokenů). | Obvykle mají méně parametrů než LLM. |
Schopnost vykazovat komplexní možnosti generování jazyka v široké škále konverzačních kontextů. | Díky tomuto prioritnímu slovníku jsou velmi efektivní v konkrétních konverzačních tématech, ale méně efektivní při obecnější generaci jazyků. |
Jejich velká velikost může ovlivnit výkon a ztěžovat jejich nasazení místně na zařízeních a počítačích. | Menší velikost SLM může poskytovat více možností pro nasazení, včetně místního nasazení do zařízení a místních počítačů; a usnadňuje jejich vyladění. |
Vyladění modelu s dalšími daty pro přizpůsobení odborných znalostí předmětu může být časově náročné a nákladné z hlediska výpočetního výkonu potřebného k provedení dalšího trénování. | Vyladění může být potenciálně méně časově náročné a nákladné. |