Grundlegendes zu Einbettungen in Azure OpenAI Service
Eine Einbettung ist ein spezielles Format der Datendarstellung, das problemlos von Machine Learning-Modellen und -Algorithmen genutzt werden kann. Die Einbettung ist eine verdichtete Informationsdarstellung der semantischen Bedeutung eines Textteils. Jede Einbettung ist ein Vektor aus Gleitkommazahlen. Der Abstand zwischen zwei Einbettungen im Vektorraum korreliert mit der semantischen Nähe zwischen zwei Eingaben im Originalformat. Wenn beispielsweise zwei Texte semantisch sehr ähnlich sind, sollten auch ihre Vektordarstellungen nahe zueinander liegen. Einbettungen unterstützen die Vektorähnlichkeitssuche in Abrufsystemen wie Azure KI-Suche (empfohlen) und in Azure-Datenbanken wie Azure Cosmos DB for MongoDB V-Kern, Azure SQL-Datenbank und Azure Database for PostgreSQL – Flexibler Server.
Einbetten von Modellen
Einbettungen vereinfachen maschinelles Lernen bei umfangreichen Eingaben, die Wörter darstellen, indem die semantischen Ähnlichkeiten in einem Vektorraum erfasst werden. Damit können Sie Einbettungen verwenden, um zu bestimmen, ob zwei Textblöcke semantisch miteinander verwandt oder ähnlich sind, und einen Ähnlichkeitsscore bereitstellen.
Kosinusähnlichkeit
Azure OpenAI-Einbettungen basieren oft auf Kosinusähnlichkeit, um die Ähnlichkeit zwischen Dokumenten und einer Abfrage zu berechnen.
Aus mathematischer Sicht wird bei der Kosinusähnlichkeit der Kosinus des Winkels zwischen zwei Vektoren gemessen, die in einem mehrdimensionalen Raum projiziert werden. Diese Messung vorteilhaft, denn wenn zwei Dokumente aufgrund ihrer Größe eine hohe euklidische Entfernung aufweisen, könnten sie trotzdem einen kleineren Winkel und somit eine höhere Kosinusähnlichkeit haben. Weitere Informationen zu Kosinusähnlichkeitsgleichungen finden Sie in diesem Artikel zur Kosinusähnlichkeit.
Eine alternative Methode zum Identifizieren ähnlicher Dokumente besteht darin, die Anzahl identischer Wörter zwischen Dokumenten zu zählen. Dieser Ansatz wird nicht skaliert, sodass größere Dokumente sehr wahrscheinlich zu einer größeren Anzahl erkannter identischer Wörter führen, selbst wenn die Dokumente unterschiedliche Themen enthalten. Aus diesem Grund kann die Kosinusähnlichkeit eine effektivere Alternative darstellen.
Nächste Schritte
- Weitere Informationen zur Verwendung von Azure OpenAI und Einbettungen für die Dokumentsuche finden Sie in unserem Tutorial zum Einbetten.
- Speichern Sie Ihre Einbettungen und führen Sie die Vektorsuche (Ähnlichkeit) mit Azure Cosmos DB für MongoDB vCore, Azure Cosmos DB für NoSQL , Azure SQL-Datenbank oder Azure-Datenbank für PostgreSQL – Flexible Server durch.
- Verwenden eines Eventhouse in Echtzeitintelligenz in Microsoft Fabric als eine Vektordatenbank.
- Verwenden Sie die Funktion series_cosine_similarity für die Ähnlichkeitssuche.