Delen via


Multimodale insluitingen (versie 4.0)

Multimodale insluiting is het proces van het genereren van een vectorweergave van een afbeelding die de kenmerken en kenmerken ervan vastlegt. Deze vectoren coderen de inhoud en context van een afbeelding op een manier die compatibel is met tekstzoekopdrachten via dezelfde vectorruimte.

Systemen voor het ophalen van afbeeldingen hebben traditioneel functies gebruikt die zijn geëxtraheerd uit de afbeeldingen, zoals inhoudslabels, tags en afbeeldingsdescriptors, om afbeeldingen te vergelijken en te rangschikken op gelijkenis. Vector similarity search biedt echter een aantal voordelen ten opzichte van traditionele zoekopdrachten op basis van trefwoorden en wordt een essentieel onderdeel van populaire inhoudszoekservices.

Trefwoorden zoeken is de meest eenvoudige en traditionele methode voor het ophalen van gegevens. In deze benadering zoekt de zoekmachine naar de exacte overeenkomst van de trefwoorden of woordgroepen die door de gebruiker in de zoekquery zijn ingevoerd en vergelijkt deze met de labels en tags die voor de afbeeldingen zijn opgegeven. De zoekmachine retourneert vervolgens afbeeldingen die exact trefwoorden bevatten als inhoudslabels en afbeeldingslabels. Trefwoorden zoeken is sterk afhankelijk van de mogelijkheid van de gebruiker om relevante en specifieke zoektermen te gebruiken.

Vectorzoekopdrachten doorzoekt grote verzamelingen vectoren in hoogdimensionale ruimte om vectoren te vinden die vergelijkbaar zijn met een bepaalde query. Vector zoeken zoekt naar semantische overeenkomsten door de context en betekenis van de zoekquery vast te leggen. Deze aanpak is vaak efficiënter dan traditionele technieken voor het ophalen van afbeeldingen, omdat hiermee de zoekruimte kan worden beperkt en de nauwkeurigheid van de resultaten kan worden verbeterd.

Zakelijke toepassingen

Multimodale insluiting heeft verschillende toepassingen in verschillende velden, waaronder:

  • Digitaal assetbeheer: Multimodale insluiting kan worden gebruikt voor het beheren van grote verzamelingen digitale afbeeldingen, zoals in musea, archieven of onlinegalerieën. Gebruikers kunnen zoeken naar afbeeldingen op basis van visuele functies en de afbeeldingen ophalen die voldoen aan hun criteria.
  • Beveiliging en bewaking: Vectorisatie kan worden gebruikt in beveiligings- en bewakingssystemen om afbeeldingen te zoeken op basis van specifieke functies of patronen, zoals in, personen en objecttracking of detectie van bedreigingen.
  • Forensisch beeld ophalen: Vectorization kan worden gebruikt in forensisch onderzoek om afbeeldingen te zoeken op basis van hun visuele inhoud of metagegevens, zoals in gevallen van cybercriminaliteit.
  • E-commerce: Vectorization kan worden gebruikt in online winkeltoepassingen om te zoeken naar vergelijkbare producten op basis van hun functies of beschrijvingen of aanbevelingen op basis van eerdere aankopen.
  • Mode en ontwerp: Vectorization kan worden gebruikt in de mode en het ontwerp om te zoeken naar afbeeldingen op basis van hun visuele kenmerken, zoals kleur, patroon of bitmappatroon. Dit kan ontwerpers of retailers helpen vergelijkbare producten of trends te identificeren.

Let op

Multimodale insluiting is niet ontworpen om medische afbeeldingen te analyseren voor diagnostische functies of ziektepatronen. Gebruik multimodale insluiting niet voor medische doeleinden.

Wat zijn vector embeddings?

Vector embeddings zijn een manier om inhoud( tekst of afbeeldingen) weer te geven als vectoren van reële getallen in een hoogdimensionale ruimte. Vector-insluitingen worden vaak geleerd van grote hoeveelheden tekst- en visuele gegevens met behulp van machine learning-algoritmen, zoals neurale netwerken.

Elke dimensie van de vector komt overeen met een ander kenmerk of kenmerk van de inhoud, zoals de semantische betekenis, syntactische rol of context waarin deze vaak wordt weergegeven. In Azure AI Vision hebben insluitingen van afbeeldingen en tekstvectors 1024 dimensies.

Belangrijk

Vector-insluitingen kunnen alleen worden vergeleken en vergeleken als ze afkomstig zijn van hetzelfde modeltype. Afbeeldingen die door één model worden gevectoriseerd, kunnen niet worden doorzocht via een ander model. De nieuwste Afbeeldingsanalyse-API biedt twee modellen, een versie 2023-04-15 die tekstzoekopdrachten in veel talen ondersteunt en het verouderde 2022-04-11 model dat alleen Engels ondersteunt.

Hoe werkt het?

Hier volgen de belangrijkste stappen van het proces voor het ophalen van afbeeldingen met behulp van multimodale insluitingen.

Diagram van het multimodale insluitproces/het ophalen van afbeeldingen.

  1. Vectorize Images and Text: de Multimodal embeddings-API's, VectorizeImage en VectorizeText kunnen worden gebruikt om functievectoren uit respectievelijk een afbeelding of tekst te extraheren. De API's retourneren één functievector die de volledige invoer vertegenwoordigt.

    Notitie

    Multimodale insluiting voert geen biometrische verwerking van menselijke gezichten uit. Zie de Azure AI Face-service voor gezichtsdetectie en -identificatie.

  2. Gelijkenis meten: Vectorzoeksystemen gebruiken doorgaans metrische gegevens over afstand, zoals cosinusafstand of Euclidische afstand, om vectoren te vergelijken en ze te rangschikken op gelijkenis. De Vision Studio-demo maakt gebruik van cosinusafstand om overeenkomsten te meten.
  3. Afbeeldingen ophalen: gebruik de belangrijkste N-vectoren die vergelijkbaar zijn met de zoekquery en haal afbeeldingen op die overeenkomen met die vectoren uit uw fotobibliotheek om het uiteindelijke resultaat op te geven.

Relevantiescore

De services voor het ophalen van afbeeldingen en video's retourneren een veld met de naam 'relevantie'. De term 'relevantie' geeft een meting aan van overeenkomsten tussen een query en afbeeldingen of videoframes. De relevantiescore bestaat uit twee delen:

  1. De cosinus-overeenkomst (die binnen het bereik van [0,1]) valt tussen de query en het insluiten van afbeeldingen of videoframes.
  2. Een metagegevensscore, die de overeenkomst weerspiegelt tussen de query en de metagegevens die zijn gekoppeld aan de afbeelding of het videoframe.

Belangrijk

De relevantiescore is een goede meting om resultaten, zoals afbeeldingen of videoframes, te rangschikken met betrekking tot één query. De relevantiescore kan echter niet nauwkeurig worden vergeleken in query's. Daarom is het niet mogelijk om de relevantiescore eenvoudig toe te wijzen aan een betrouwbaarheidsniveau. Het is ook niet mogelijk om een drempelwaardealgoritme te maken om irrelevante resultaten te elimineren op basis van de relevantiescore.

Vereisten voor invoer

Afbeeldingsinvoer

  • De bestandsgrootte van de afbeelding moet kleiner zijn dan 20 megabyte (MB)
  • De afmetingen van de afbeelding moeten groter zijn dan 10 x 10 pixels en kleiner zijn dan 16.000 x 16.000 pixels

Tekstinvoer

  • De tekenreeks moet tussen (inclusief) één woord en 70 woorden liggen.

Volgende stappen

Schakel multimodale insluitingen in voor uw zoekservice en volg de stappen voor het genereren van vector-insluitingen voor tekst en afbeeldingen.