Sdílet prostřednictvím


Vektorové vkládání ve službě Azure Cosmos DB

Vektory, označované také jako vkládání vektorů nebo vektorové vkládání, jsou matematické znázornění dat ve vysokodimenzionálním prostoru. Představují různé typy informací – text, obrázky, zvuk – formát, který mohou modely strojového učení zpracovávat. Když model AI obdrží textový vstup, nejprve tokenizuje text do tokenů. Každý token se pak převede na odpovídající vkládání. Tento proces převodu je možné provést pomocí modelu generování pro vložení, jako jsou vložení Azure OpenAI nebo Hugging Face v Azure. Model tyto vkládání zpracovává prostřednictvím několika vrstev a zachycuje složité vzory a vztahy v textu. Výstupní vkládání je pak možné v případě potřeby převést zpět na tokeny a vygenerovat čitelný text.

Vektory

Každé vložení je vektor čísel s plovoucí desetinou čárkou, aby vzdálenost mezi dvěma vkládáními ve vektorovém prostoru odpovídala sémantické podobnosti mezi dvěma vstupy v původním formátu. Pokud jsou například dva texty podobné, měly by být jejich vektorové reprezentace také podobné. Tyto vysoce dimenzionální reprezentace zachycují sémantický význam, což usnadňuje provádění úloh, jako je vyhledávání, shlukování a klasifikace.

Tady jsou dva příklady textů reprezentovaných jako vektory:

Snímek obrazovky s příklady vektorů ve službě Azure Cosmos DB

Zdroj obrázku: OpenAI

Rozměry a blízkost

Každé pole obsahující čísla s plovoucí desetinou čárkou odpovídá dimenzi a každá dimenze odpovídá funkci nebo atributu, která může nebo nemusí být srozumitelná pro lidi. Vkládání textu v rozsáhlém jazykovém modelu obvykle má několik tisíc dimenzí, zatímco složitější datové modely můžou mít desítky tisíc dimenzí.

Mezi dvěma vektory v předchozím příkladu jsou některé dimenze podobné, zatímco jiné dimenze jsou odlišné, což jsou způsobené podobnostmi a rozdíly ve významu dvou frází.

Tento obrázek znázorňuje prostorovou blízkost vektorů, které jsou podobné, kontrastní vektory, které jsou výrazně odlišné:

Snímek obrazovky s uzavřením vektoru ve službě Azure Cosmos DB

Zdroj obrázku: OpenAI

Příklady

Další příklady můžete vidět v této interaktivní vizualizaci , která transformuje data do trojrozměrného prostoru.