Omówienie usługi LLMs
Duży model językowy (LLM) to typ sztucznej inteligencji, który może przetwarzać i tworzyć tekst w języku naturalnym. Uczy się na podstawie ogromnej ilości danych zebranych ze źródeł, takich jak książki, artykuły, strony internetowe i obrazy, aby odkryć wzorce i reguły języka.
Jak duże są?
Usługa LLM jest tworzona przy użyciu architektury sieci neuronowej. Przyjmuje ona dane wejściowe, ma kilka ukrytych warstw, które rozdzielają różne aspekty języka i generują dane wyjściowe w warstwie wyjściowej.
Ludzie często zgłaszają, jak najnowszy podstawowy model jest większy niż ostatni, ale co to znaczy? Krótko mówiąc, tym więcej parametrów ma model, tym więcej danych może przetwarzać, uczyć się na podstawie i generować.
Dla każdego połączenia między dwoma neuronami architektury sieci neuronowej istnieje funkcja: waga * wejście + stronniczość. Ta sieć tworzy wartości liczbowe, które określają, jak model przetwarza język.
LLMs są rzeczywiście duże i szybko rosną. Niektóre modele mogą obliczyć miliony parametrów w 2018 roku. Ale dziś GPT-4 może obliczyć biliony parametrów .
Gdzie podstawowe modele pasują do llMs?
Model podstawowy odnosi się do określonego wystąpienia lub wersji usługi LLM. Na przykład GPT-3, GPT-4 lub Codex.
Podstawowe modele są trenowane i dostrojone w dużym korpusie tekstu lub kodu, jeśli jest to wystąpienie modelu Codex.
Podstawowy model przyjmuje dane szkoleniowe we wszystkich różnych formatach i używa architektury przekształcania do utworzenia ogólnego modelu. Adaptacje i specjalizacje można tworzyć w celu osiągnięcia określonych zadań za pośrednictwem monitów lub dostrajania.
W jaki sposób llM różni się od bardziej tradycyjnego przetwarzania języka naturalnego (NLP)?
Istnieje kilka rzeczy, które oddzielają tradycyjne równoważenie obciążenia sieciowego od llMs.
Tradycyjne nlp | Duże modele językowe |
---|---|
Wymagany jest jeden model na możliwość. | Pojedynczy model jest używany w wielu przypadkach użycia języka naturalnego. |
Udostępnia zestaw danych oznaczonych etykietami do trenowania modelu uczenia maszynowego. | Używa wielu terabajtów danych bez etykiet w modelu podstawowym. |
Opisuje w języku naturalnym, co ma robić model. | Wysoce zoptymalizowane pod kątem określonych przypadków użycia. |
Co nie robi LLM?
Równie ważne jest, aby zrozumieć, co może zrobić LLM, równie ważne jest, aby zrozumieć, czego nie może zrobić, aby wybrać odpowiednie narzędzie do zadania.
Opis języka: LLM to aparat predykcyjny, który ściąga wzorce na podstawie istniejącego tekstu w celu utworzenia większej ilości tekstu. Nie rozumie języka ani matematyki.
Omówienie faktów: Moduł LLM nie ma oddzielnych trybów pobierania informacji i pisania twórczego; po prostu przewiduje następny najbardziej prawdopodobny token.
Poznaj maniery, emocje lub etykę: LLM nie może wykazywać antropomorfizmu ani rozumieć etyki. Dane wyjściowe podstawowego modelu to kombinacja danych treningowych i monitów.