Co to są tokeny?
Tokeny są małymi fragmentami tekstu generowanymi przez podzielenie tekstu wejściowego na mniejsze segmenty. Te segmenty mogą być wyrazami lub grupami znaków, różniąc się długością od pojedynczego znaku do całego wyrazu. Na przykład słowo hamburger zostanie podzielone na tokeny, takie jak szynka, bur i ger, podczas gdy krótkie i typowe słowo, takie jak gruszka, byłoby uważane za pojedynczy token. Duże modele językowe (LLM), takie jak GPT-3.5 lub GPT-4, dzielą wyrazy na tokeny do przetwarzania.
Powiązana zawartość
- Co to jest baza danych wektorów?
- Pobieranie rozszerzonej generacji (RAG)
- Wektorowa baza danych w usłudze Azure Cosmos DB NoSQL
- Wektorowa baza danych w usłudze Azure Cosmos DB dla bazy danych MongoDB
- Co to jest wyszukiwanie wektorów?
- Osadzanie wektorów
- Funkcje odległości
- algorytmy wyszukiwania wektorów kNN a ANN