Dela via


Så här aktiverar och använder pgvector du i Azure Cosmos DB för PostgreSQL

GÄLLER FÖR: Azure Cosmos DB for PostgreSQL (drivs av Citus-databastillägget till PostgreSQL)

Tillägget pgvector lägger till en vektorlikhetssökning med öppen källkod till PostgreSQL.

Den här artikeln introducerar oss för extra funktioner som aktiveras av pgvector. Den beskriver begreppen vektorlikhet och inbäddningar och ger vägledning om hur du aktiverar pgvector tillägget. Vi lär oss mer om hur du skapar, lagrar och frågar vektorerna. Du kanske också vill referera till projektets officiella README .

Aktivera tillägg

PostgreSQL-tillägg måste vara aktiverade i databasen innan du kan använda dem. Om du vill aktivera tillägget kör du kommandot från psql-verktyget för att läsa in de paketerade objekten i databasen.

SELECT CREATE_EXTENSION('vector');

Kommentar

Så här inaktiverar du en tilläggsanvändning drop_extension()

Begrepp

Vektorlikhet

Vektorlikhet är en metod som används för att mäta hur lika två objekt är genom att representera dem som vektorer, som är talserier. Vektorer används ofta för att representera datapunkter, där varje element i vektorn representerar en funktion eller ett attribut för datapunkten.

Vektorlikhet beräknas ofta med hjälp av avståndsmått, till exempel Euclidean distance eller cosine likhet. Euklidiska avstånd mäter det räta avståndet mellan två vektorer i det n-dimensionella utrymmet, medan cosinuslikhet mäter vinkelns cosinus mellan två vektorer. Värdena för likhetsmått varierar vanligtvis mellan 0 och 1, med higher värden som anger större likhet mellan vektorerna.

Vektorlikhet används ofta i olika program, till exempel rekommendationssystem, textklassificering, bildigenkänning och klustring. I rekommendationssystem kan till exempel vektorlikhet användas för att identifiera liknande objekt baserat på användarens inställningar. I textklassificering kan vektorlikhet användas för att fastställa likheten mellan två dokument eller meningar baserat på deras vektorrepresentationer.

Inbäddningar

En inbäddning är en metod för att utvärdera "relaterade" text, bilder, videor eller andra typer av information. Utvärderingen gör det möjligt för maskininlärningsmodeller att effektivt identifiera relationer och likheter mellan data, vilket gör det möjligt för algoritmer att identifiera mönster och göra korrekta förutsägelser. I en attitydanalysaktivitet kan till exempel ord med liknande inbäddningar förväntas ha liknande attitydpoäng.

Komma igång

Skapa en tabell tblvector med en embedding kolumn av typen vector(3) som representerar en tredimensionell vektor.

CREATE TABLE tblvector(
    id bigserial PRIMARY KEY,
    embedding vector(3)
    );

När du har genererat en inbäddning med hjälp av en tjänst som OpenAI API kan du lagra den resulterande vektorn i databasen. Definiera en vektor som vector(3) anger [x,y,z] coordinates i tredimensionellt plan. Kommandot infogar fem nya rader i tblvector tabellen med de angivna inbäddningarna.

INSERT INTO tblvector (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]'), (3, '[5,4,6]'), (4, '[3,5,7]'), (5, '[7,8,9]');

Med hjälp av -instruktionen INSERT INTO ... ON CONFLICT kan du ange en alternativ åtgärd, till exempel att uppdatera poster som matchar kriterierna. Det gör att du kan hantera potentiella konflikter på ett effektivare och effektivare sätt.

INSERT INTO tblvector (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]')
ON CONFLICT (id) DO UPDATE SET embedding = EXCLUDED.embedding;

Kommandot DELETE tar bort rader från en angiven tabell baserat på de villkor som anges i WHERE-satsen. När WHERE-satsen inte finns tas alla rader i tabellen bort.

DELETE FROM tblvector WHERE id = 1;

Om du vill hämta vektorer och beräkna likheter använder du SELECT instruktioner och inbyggda vektoroperatorer. Frågan beräknar till exempel euklidiska avståndet (L2-avståndet) mellan den angivna vektorn och de vektorer som lagras i tblvector tabellen, sorterar resultatet efter det beräknade avståndet och returnerar de närmaste fem mest liknande objekten.

SELECT * FROM tblvector 
ORDER BY embedding <-> '[3,1,2]' 
LIMIT 5;

Frågan använder operatorn "<->", som är den "avståndsoperator" som används för att beräkna avståndet mellan två vektorer i ett flerdimensionellt utrymme. Frågan returnerar alla rader med avståndet mindre än 6 från vektorn [3,1,2].

SELECT * FROM tblvector WHERE embedding <-> '[3,1,2]' < 6;

Kommandot hämtar det genomsnittliga värdet för kolumnen "inbäddning" från tabellen "tblvector". Om kolumnen "inbäddning" till exempel innehåller ordinbäddningar för en språkmodell kan det genomsnittliga värdet för dessa inbäddningar användas för att representera hela meningen eller dokumentet.

SELECT AVG(embedding) FROM tblvector;

Vektoroperatorer

pgvector introducerar sex nya operatorer som kan användas på vektorer:

Operatör beskrivning
+ elementmässigt tillägg
- elementmässigt subtraktion
* elementmässigt multiplikation
<-> Euklidiska avstånd
<#> negativ inre produkt
<=> cosininavstånd

Vektorfunktioner

cosine_distance

Beräknar cosinéavståndet mellan två vektorer.

cosine_distance(vector, vector)

Argument

vector

Först vector.

vector

Andra vector.

Returtyp

double precision avstånd mellan de två angivna vektorerna.

inner_product

Beräknar den inre produkten av två vektorer.

inner_product(vector, vector)

Argument

vector

Först vector.

vector

Andra vector

Returtyp

double precision som inre produkt av de två vektorerna.

l2_distance

Beräknar euklidiska avståndet (även kallat L2) mellan två vektorer.

l2_distance(vector, vector)

Argument

vector

Först vector.

vector

Andra vector

Returtyp

double precision som euklidiska avståndet mellan de två vektorerna.

l1_distance

Beräknar taxicabavståndet (även kallat L1) mellan två vektorer.

l1_distance(vector, vector)

Argument

vector

Först vector.

vector

Andra vector

Returtyp

double precision som taxicabavståndet mellan de två vektorerna.

vector_dims(vector)

Returnerar dimensionerna för en viss vektor.

Argument

vector

En vector.

Returtyp

integer representerar antalet dimensioner för den angivna vektorn.

vector_norms(vector)

Beräknar euklidiska normen för en viss vektor.

Argument

vector

En vector.

Returtyp

double precision som representerar den givna vektorns euklidiska norm.

Vektoraggregat

AVG

Beräknar medelvärdet av bearbetade vektorer.

Argument

vector

En vector.

Returtyp

vector representerar medelvärdet av bearbetade vektorer.

SUM

Argument

vector

En vector.

Returtyp

vector representerar summan av bearbetade vektorer.

Nästa steg

Läs mer om prestanda, indexering och begränsningar med hjälp av pgvector.