Eksplorowanie modeli językowych w katalogu modeli

7 min

Wybór modelu językowego dla generowanej aplikacji sztucznej inteligencji jest ważny, ponieważ ma wpływ na to, jak dobrze działa aplikacja. Podczas tworzenia aplikacji generowania sztucznej inteligencji za pomocą usługi Azure AI Foundry utworzysz aplikację do czatu, która może używać modeli językowych w kilku celach:

Aby zrozumieć pytanie użytkownika.
Aby wyszukać odpowiedni kontekst.
Aby wygenerować odpowiedź na pytanie użytkownika.

W portalu Azure AI Foundry możesz przeglądać dostępne modele językowe w katalogu modeli. Przyjrzyjmy się katalogowi modeli i typom modeli językowych dostępnych za pośrednictwem usługi Azure AI.

Eksplorowanie wykazu modeli

W portalu azure AI Foundry możesz przejść do katalogu modeli, aby zapoznać się ze wszystkimi dostępnymi modelami językowymi. Ponadto można zaimportować dowolny model z biblioteki open source Hugging Face do katalogu modeli.

Napiwek

Przytulanie twarzy to społeczność typu open source udostępniająca modele publicznie. Wszystkie modele można znaleźć w katalogu. Ponadto możesz zapoznać się z dokumentacją, aby dowiedzieć się więcej o sposobie działania poszczególnych modeli, takich jak .

Wykaz modeli usługi Azure AI Foundry integruje się z modelami z funkcji Hugging Face i innymi źródłami. Za pomocą wykazu modeli można eksplorować, dostosowywać i wdrażać modele.

Ważne

Dostępność modelu różni się w zależności od lokalizacji, nazywanej również regionem. Lokalizacja jest określona na poziomie centrum sztucznej inteligencji. Podczas tworzenia nowego centrum sztucznej inteligencji możesz użyć pomocnika Lokalizacja, aby określić model, który chcesz wdrożyć, aby uzyskać listę lokalizacji, w których można ją wdrożyć. Możesz również zapoznać się z tabelą podsumowania modelu i dostępnością regionów, aby dowiedzieć się więcej.

Eksplorowanie modeli językowych

Modele podstawowe lub językowe dostępne w wykazie modeli są już wstępnie wytrenowane. Model językowy można wdrożyć w punkcie końcowym lub dostosować model, aby lepiej działał w wyspecjalizowanym zadaniu lub na wiedzy specyficznej dla domeny.

Wybrany model zależy od preferencji użycia i wdrożenia. Przede wszystkim należy zastanowić się nad zadaniem, które ma wykonać model. Na przykład:

Klasyfikacja tekstu
klasyfikacja tokenów
Odpowiadanie na pytania
Podsumowanie
Tłumaczenie

Niektóre modele językowe, które są często używane w różnych zadaniach, to:

Model	opis
(Reprezentacje kodera dwukierunkowego z funkcji Transformers)	Skoncentrowano się na kodowaniu informacji przy użyciu kontekstu z wcześniejszego i po tokenie (dwukierunkowym). Często używane, gdy chcesz dostosować model do wykonania określonego zadania, takiego jak klasyfikacja tekstu i odpowiadanie na pytania.
GPT (generator wstępnie wytrenowany)	Trenowane w celu tworzenia spójnego i kontekstowego tekstu i jest najczęściej używane w przypadku zadań takich jak generowanie tekstu i uzupełnianie czatów.
LLaMA (duży model językowy Meta AI)	Rodzina modeli utworzonych przez aplikację Meta. Podczas trenowania modeli LLaMA skupiono się na dostarczaniu większej ilości danych szkoleniowych niż zwiększaniu złożoności modeli. Modele LLaMA można używać do generowania tekstu i uzupełniania czatów.
Phi-3-mini (odmiana parametrów 3.8B modeli phi)	Lekki, najnowocześniejszy model zoptymalizowany pod kątem środowisk ograniczonych do zasobów i lokalnego wnioskowania (na przykład na telefonie), obsługujący monity o długi kontekst do 128 K tokenów. Został opracowany z myślą o bezpieczeństwie, wyrównaniu i wzmocnieniu uczenia się od opinii człowieka.

Po wybraniu zadania i przefiltrowaniu dostępnych modeli, które są odpowiednie dla danego celu, możesz przejrzeć podsumowanie modelu w narzędziu Azure AI Foundry, aby wziąć pod uwagę inne kwestie:

Możliwości modelu: oceń możliwości modelu językowego i ich dopasowanie do zadania. Na przykład model, taki jak, jest lepszy w zrozumieniu krótkich tekstów.
Wstępne trenowanie danych: rozważ zestaw danych używany do wstępnego trenowania modelu językowego. Na przykład GPT-2 jest trenowany na niefiltrowanej zawartości z Internetu, co może spowodować uprzedzenia.
Ograniczenia i uprzedzenia: należy pamiętać o wszelkich ograniczeniach lub uprzedzeniach, które mogą występować w modelu językowym.
Obsługa języka: Eksploruj, które modele oferują obsługę określonego języka lub wielojęzyczne możliwości, których potrzebujesz w przypadku użycia.

Napiwek

Chociaż narzędzie Azure AI Foundry zawiera opisy dla każdego modelu językowego w katalogu modeli, możesz również znaleźć więcej informacji na temat każdego modelu za pomocą odpowiedniej karty modelu. Karty modelu są przywoływana w przeglądzie każdego modelu i hostowane na stronie internetowej aplikacji Hugging Face

Porównanie testów porównawczych między modelami

Podczas eksplorowania modeli językowych można również porównać dostępne testy porównawcze modelu, aby ocenić jakość modeli przed wdrożeniem i zintegrowaniem modelu. Testy porównawcze są podobne do kart raportów dla modeli językowych. Testy porównawcze pomagają zrozumieć, jak dobrze działa model, porównując go z innymi modelami przy użyciu określonych testów lub zadań. Testy porównawcze modelu w portalu usługi Azure AI Foundry udostępniają wyselekcjonaną listę najlepszych modeli dla danego zadania na podstawie metryk testów porównawczych.

Niektóre często używane metryki do oceny wydajności modeli językowych to:

Metryka	Opis
Dokładność	Wyniki dokładności są dostępne na poziomie zestawu danych i modelu. Na poziomie zestawu danych wynik jest średnią wartością metryki dokładności obliczonej na wszystkich przykładach w zestawie danych. Użyta metryka dokładności jest dokładnie zgodna we wszystkich przypadkach, z wyjątkiem zestawu danych HumanEval, który używa metryki pass@1. Dokładne dopasowanie po prostu porównuje model wygenerowany tekst z prawidłową odpowiedzią zgodnie z zestawem danych, zgłaszając go, jeśli wygenerowany tekst odpowiada dokładnie i zero w przeciwnym razie. Pass@1 mierzy proporcję rozwiązań modelu, które przechodzą zestaw testów jednostkowych w zadaniu generowania kodu. Na poziomie modelu współczynnik dokładności jest średnią dokładności na poziomie zestawu danych dla każdego modelu.
Spójności	Spójność ocenia, jak dobrze model językowy może wygenerować dane wyjściowe, które przepływa płynnie, odczytuje naturalnie i przypomina język przypominający człowieka.
Płynność	Płynność ocenia biegłość językową przewidywanej odpowiedzi na generowanie sztucznej inteligencji. Ocenia, jak dobrze wygenerowany tekst jest zgodny z regułami gramatycznymi, strukturami składniowymi i odpowiednim użyciem słownictwa, co skutkuje poprawną językowo i naturalnie brzmiącymi odpowiedziami.
GPTSimilarity	GPTSimilarity to miara, która kwantyfikuje podobieństwo między zdaniem podstawy prawdy (lub dokumentem) a wyrokiem przewidywania wygenerowanym przez model sztucznej inteligencji. Jest obliczana przez pierwsze osadzanie na poziomie zdania przy użyciu interfejsu API osadzania zarówno dla podstawowej prawdy, jak i przewidywania modelu. Te osadzania reprezentują wielowymiarowe reprezentacje wektorów zdań, przechwytując ich semantyczne znaczenie i kontekst.
Uziemienie	Groundedness mierzy, jak dobrze generowane odpowiedzi modelu językowego są zgodne z informacjami ze źródła danych wejściowych.
Mający znaczenie dla	Istotność mierzy zakres, w jakim wygenerowane odpowiedzi modelu językowego są odpowiednie i bezpośrednio związane z podanymi pytaniami.

Uwaga

Podczas tworzenia i oceniania aplikacji korzystających z modeli językowych ważne jest użycie metryk do mierzenia wydajności modelu i aplikacji. Te same metryki używane na potrzeby testów porównawczych, które porównują różne modele, mogą również służyć do oceny wydajności poszczególnych modeli podczas opracowywania. Te metryki pomagają zrozumieć, jak dobrze działa model i zidentyfikować obszary pod kątem poprawy.

Wybranie modelu, który odpowiada Twoim potrzebom, może być procesem iteracyjnym. Następnie dowiesz się, jak wdrożyć model, aby przetestować go i eksperymentować z optymalizacją modelu pod kątem przypadku użycia.

Eksplorowanie modeli językowych w katalogu modeli

Eksplorowanie wykazu modeli

Eksplorowanie modeli językowych

Porównanie testów porównawczych między modelami

Opinia