Freigeben über


Grundlegendes zu Einbettungen in Azure OpenAI Service

Eine Einbettung ist ein spezielles Format der Datendarstellung, das problemlos von Machine Learning-Modellen und -Algorithmen genutzt werden kann. Die Einbettung ist eine verdichtete Informationsdarstellung der semantischen Bedeutung eines Textteils. Jede Einbettung ist ein Vektor aus Gleitkommazahlen. Der Abstand zwischen zwei Einbettungen im Vektorraum korreliert mit der semantischen Nähe zwischen zwei Eingaben im Originalformat. Wenn beispielsweise zwei Texte semantisch sehr ähnlich sind, sollten auch ihre Vektordarstellungen nahe zueinander liegen. Einbettungen unterstützen die Vektorähnlichkeitssuche in Abrufsystemen wie Azure KI-Suche (empfohlen) und in Azure-Datenbanken wie Azure Cosmos DB for MongoDB V-Kern, Azure SQL-Datenbank und Azure Database for PostgreSQL – Flexibler Server.

Einbetten von Modellen

Einbettungen vereinfachen maschinelles Lernen bei umfangreichen Eingaben, die Wörter darstellen, indem die semantischen Ähnlichkeiten in einem Vektorraum erfasst werden. Damit können Sie Einbettungen verwenden, um zu bestimmen, ob zwei Textblöcke semantisch miteinander verwandt oder ähnlich sind, und einen Ähnlichkeitsscore bereitstellen.

Kosinusähnlichkeit

Azure OpenAI-Einbettungen basieren oft auf Kosinusähnlichkeit, um die Ähnlichkeit zwischen Dokumenten und einer Abfrage zu berechnen.

Aus mathematischer Sicht wird bei der Kosinusähnlichkeit der Kosinus des Winkels zwischen zwei Vektoren gemessen, die in einem mehrdimensionalen Raum projiziert werden. Diese Messung vorteilhaft, denn wenn zwei Dokumente aufgrund ihrer Größe eine hohe euklidische Entfernung aufweisen, könnten sie trotzdem einen kleineren Winkel und somit eine höhere Kosinusähnlichkeit haben. Weitere Informationen zu Kosinusähnlichkeitsgleichungen finden Sie in diesem Artikel zur Kosinusähnlichkeit.

Eine alternative Methode zum Identifizieren ähnlicher Dokumente besteht darin, die Anzahl identischer Wörter zwischen Dokumenten zu zählen. Dieser Ansatz wird nicht skaliert, sodass größere Dokumente sehr wahrscheinlich zu einer größeren Anzahl erkannter identischer Wörter führen, selbst wenn die Dokumente unterschiedliche Themen enthalten. Aus diesem Grund kann die Kosinusähnlichkeit eine effektivere Alternative darstellen.

Nächste Schritte