Förstå inbäddning
En inbäddning är en typ av datarepresentation som används av maskininlärningsmodeller. En inbäddning representerar den semantiska innebörden av ett stycke text. Du kan visualisera en inbäddning som en matris med tal, och det numeriska avståndet mellan två inbäddningar representerar deras semantiska likhet. Om två texter till exempel är liknande bör deras representationer också vara liknande.
Inbäddningsmodeller
Hur effektiva sökresultaten blir är en direkt relation till effektiviteten i din inbäddade modell.
Det finns modeller som skapats specifikt för att utföra en specifik uppgift. Använd inbäddningar för likhetssökning för att fånga den semantiska likheten mellan textdelar. En inbäddning av textsökning kan titta på relevansen av ett långt dokument för en kort fråga. Använd inbäddningskodfragment och sökfrågor på naturligt språk med hjälp av inbäddning av kodsökning .
Användare tillhandahåller indata till en fråga för en inbäddningsmodell som konverteras från text till en vektor med till exempel modellen textinbäddning-ada-002 för att generera textinbäddningar.
Resultatet blir alla dokument som matchar frågan som finns i ditt sökindex. Dokumenten, med inbäddningar som innehåller vektorfält, måste finnas i sökindexet och samma modell måste användas för indexering och frågan.
Bädda in utrymme
Inbäddningsutrymme är kärnan i vektorfrågor som består av alla vektorfält från samma inbäddningsmodell. Den består av alla vektorfält som fylls i med samma modell.
I det här inbäddningsutrymmet finns liknande objekt nära varandra och olika objekt ligger längre ifrån varandra.
Till exempel skulle dokument som talar om hotell med en vattenpark vara nära varandra i inbäddningsutrymmet, medan hotell utan denna anläggning skulle vara längre bort samtidigt som de fortfarande var i grannskapet för hotell. Olika begrepp som restauranger skulle fortfarande vara längre bort. I praktiken är inbäddningsutrymmen abstrakta och har inte väldefinierade betydelser som är begripliga för människor, men kärnidén förblir densamma.