Który model ma być używany
Istnieje wiele czynników, w tym kosztów, dostępności, wydajności i możliwości, które należy wziąć pod uwagę podczas wybierania, które rozwiązanie LLM ma być używane. Ogólnie rzecz biorąc, zalecamy następujące przewodniki:
gpt-35-turbo: ten model jest ekonomiczny, działa dobrze i, pomimo nazwy ChatGPT, może służyć do szerokiego zakresu zadań poza rozmową i konwersacją.
gpt-35-turbo-16k, gpt-4 lub gpt-4-32k: Te modele są dobrym wyborem, jeśli potrzebujesz wygenerować więcej niż 4096 tokenów lub trzeba obsługiwać większe monity. Jednak te modele są droższe, mogą być wolniejsze i mogą mieć ograniczoną dostępność.
Modele osadzania: jeśli zadania obejmują wyszukiwanie, klastrowanie, zalecenia i wykrywanie anomalii, należy użyć modelu osadzania. Komputery mogą łatwo korzystać z wektora liczb, które tworzą osadzanie. Osadzanie to gęsta reprezentacja semantycznego znaczenia tekstu. Odległość między dwoma osadzaniami w przestrzeni wektorowej jest skorelowana z podobieństwem semantycznym. Jeśli na przykład dwa teksty są podobne, ich reprezentacje wektorowe są również podobne.
DALL-E: Ten model generuje obrazy z monitów tekstowych. Język DALL-E różni się od innych modeli językowych, ponieważ jego dane wyjściowe są obrazem, a nie tekstem.
Szept: ten model jest trenowany na dużym zestawie danych angielskiego dźwięku i tekstu. Szept jest zoptymalizowany pod kątem funkcji zamiany mowy na tekst, takich jak transkrypcja plików audio. Może służyć do transkrypcji plików audio, które zawierają mowę w językach innych niż angielski, ale dane wyjściowe modelu to tekst w języku angielskim. Użyj szeptu, aby szybko transkrybować pliki audio pojedynczo, przetłumaczyć dźwięk z innych języków na język angielski lub podać monit do modelu, aby pokierować danymi wyjściowymi.