Dela via


Välj en Azure AI-teknik för bild- och videobearbetning

Azure AI-tjänster hjälper utvecklare och organisationer att skapa intelligenta, banbrytande, marknadsklara och ansvarsfulla program med färdiga och fördefinierade och anpassningsbara API:er och modeller.

Den här artikeln beskriver Azure AI-tjänster som erbjuder funktioner för video- och bildbearbetning, till exempel visuell analys och generering av bilder, objektidentifiering, bildklassificering och ansiktsigenkänning.

Tjänster

Följande tjänster tillhandahåller video- och bildbearbetningsfunktioner för Azure AI-tjänster:

  • Azure OpenAI

    • Använd Azure OpenAI för bildgenerering från naturligt språk med hjälp av förtränade generativa bildmodeller. Till exempel generering av anpassad konst på begäran.
    • Använd Azure OpenAI när du behöver utföra icke-specifik, bred analys av bilder. Du kan till exempel generera hjälpmedelsbeskrivningar.
    • Använd inte Azure OpenAI om du vill använda öppen källkod avbildningsgenereringsmodeller som är tillgängliga i Azure Machine Learning.
    • Använd inte Azure OpenAI om du behöver utföra specifika typer av bildbearbetning som extrahering av formulär, ansiktsigenkänning eller domänspecialiserad identifiering av bildegenskaper. I dessa scenarier använder eller skapar du AI-lösningar som utformats specifikt för dessa ändamål i stället.
  • Azure AI Vision

    • Använd Vision Service när du behöver grundläggande optisk teckenigenkänning (OCR), bildanalys eller grundläggande videoanalys för att identifiera rörelse och andra händelser.
    • Använd inte visionstjänsten för analys som stora, multimodala grundmodeller redan stöder.
    • Använd inte visionstjänsten för att moderera innehåll. Använd innehållssäkerhetstjänsten i stället.
  • Azure AI Custom Vision

    • Använd tjänsten när du har specifika krav som den grundläggande visionstjänstens bildanalys inte kan tillhandahålla. Det är till exempel bra att känna igen ovanliga objekt, tillverka defekter eller tillhandahålla detaljerade anpassade klassificeringar.
    • Använd inte tjänsten om du behöver grundläggande objektidentifiering eller ansiktsidentifiering. Använd ansikts- eller visionstjänster i stället.
    • Använd inte tjänsten för grundläggande visuell analys. Använd visionskompatibla modeller från Azure OpenAI eller modeller med öppen källkod i Azure Machine Learning i stället.
  • Azure AI Face

    • Använd ansiktstjänsten när du behöver kontrollera om ansikten är live eller falska/falska, eller för att identifiera, gruppera eller hitta liknande ansikten.
    • Använd inte ansiktstjänsten för att identifiera känslor i ansikten eller utföra andra resonemang på hög nivå om ansikten. Använd flermodala språkmodeller för dessa uppgifter i stället.
  • Azure AI Video Indexer

    • Använd Azure Video Indexer-tjänsten för mer avancerade videoanalysrelaterade uppgifter som visionstjänstens grundläggande videoanalys inte kan tillhandahålla.
    • Använd inte Azure Video Indexer-tjänsten för grundläggande videoanalysuppgifter som personer som räknar och rörelse- och händelseidentifiering. Vision-tjänstens grundläggande videoanalys är mer kostnadseffektiv för dessa uppgifter.

Azure OpenAI

Azure OpenAI ger åtkomst till OpenAI:s kraftfulla språkmodeller, inklusive den senaste generationens GPT-modeller. Dessa stöder visuell analys och generationer av bilder, och DALL-E stöder bildgenerering.

Azure AI-visuellt innehåll

Azure AI Vision tillhandahåller avancerade algoritmer som bearbetar bilder och returnerar information baserat på de visuella funktioner som du är intresserad av. Den tillhandahåller fyra tjänster: OCR, Ansiktstjänst, bild och rumslig analys.

Funktioner

Följande tabell innehåller en lista över funktioner som är tillgängliga i Azure AI Vision-tjänsten.

Kapacitet beskrivning
Optisk teckenigenkänning (OCR) OCR-tjänsten (Optical Character Recognition) extraherar text från bilder. Du kan använda Läs-API:et för att extrahera tryckt och handskriven text från foton och dokument. Den använder djupinlärningsbaserade modeller och fungerar med text på olika ytor och bakgrunder. Dessa omfattar affärsdokument, fakturor, kvitton, affischer, visitkort, brev och whiteboards. OCR-API:erna stöder extrahering av tryckt text på flera språk.
Bildanalys Tjänsten Bildanalys extraherar många visuella funktioner från bilder, till exempel objekt, ansikten och automatiskt genererade textbeskrivningar. Med Image Analysis 4.0 som baseras på Florens grundmodell kan du också skapa anpassade bildidentifierarmodeller.
Videoanalys Videoanalys innehåller videorelaterade funktioner som spatial analys och videohämtning. Rumslig analys analyserar närvaron och förflyttningen av personer i ett videoflöde och genererar händelser som andra system kan svara på.

Azure AI Custom Vision

Azure AI Custom Vision Service är en tjänst för bildigenkänning som gör att du kan skapa, distribuera och förbättra dina egna modeller för bildidentifierare. En bildidentifierare tillämpar etiketter på bilder enligt deras visuella egenskaper. Varje etikett representerar en klassificering eller ett objekt. Med Custom Vision kan du ange egna etiketter och träna anpassade modeller för att identifiera dem.

Custom Vision-tjänsten använder en maskininlärningsalgoritm för att analysera bilder för anpassade funktioner. Du skickar uppsättningar med bilder som inte har de visuella egenskaper som du letar efter. Sedan etiketterar du bilderna med dina egna etiketter (taggar) när de skickas in. Algoritmen tränar till dessa data och beräknar sin egen noggrannhet genom att testa sig själv på samma bilder. När du har tränat din modell kan du testa, träna om och så småningom använda den i bildigenkänningsappen för att klassificera bilder eller identifiera objekt. Du kan också exportera modellen för offlineanvändning.

Funktioner

Följande tabell innehåller en lista över funktioner som är tillgängliga i Azure AI Custom Vision Service.

Kapacitet beskrivning
Bildklassificering Förutsäga en kategori, eller klass, baserat på en uppsättning indata, som kallas funktioner. Beräkna en sannolikhetspoäng för varje möjlig klass och returnera en etikett som anger vilken klass objektet troligen tillhör. För att använda den här modellen behöver du data som består av funktioner och deras etiketter.
Objektidentifiering Hämta koordinaterna för ett objekt i en bild. Om du vill använda den här modellen behöver du data som består av funktioner och deras etiketter

Användningsfall

Följande tabell innehåller en lista över möjliga användningsfall för Azure AI Custom Vision Service.

Användningsfall beskrivning
Använda Custom Vision med en IoT-enhet för att rapportera visuella tillstånd använd Custom Vision för att träna en enhet med en kamera för att identifiera visuella tillstånd. Du kan köra det här identifieringsscenariot på en IoT-enhet med hjälp av en exporterad ONNX-modell. Ett visuellt tillstånd beskriver innehållet i en bild: ett tomt rum eller ett rum med personer, en tom uppfart eller en uppfart med en lastbil och så vidare.
Identifiera logotyper i kamerabilder Analysera foton och leta efter specifika logotyper.

Azure AI Face

Azure AI Face Service tillhandahåller AI-algoritmer som identifierar, känner igen och analyserar mänskliga ansikten i bilder. Programvara för ansiktsigenkänning är viktig i många scenarier, till exempel identifiering, beröringsfri åtkomstkontroll och automatisk ansiktsutskärpa för sekretess.

Funktioner

Följande tabell innehåller en lista över funktioner som är tillgängliga i Azure AI Face Service.

Kapacitet beskrivning
Ansiktsigenkänning och analys Identifiera regionerna i en bild som innehåller ett mänskligt ansikte, vanligtvis genom att returnera koordinater för avgränsningsrutor som bildar en rektangel runt ansiktet.
Hitta liknande ansikten Åtgärden Hitta liknande matchar ansikten mellan ett mål ansikte och en uppsättning kandidat ansikten, hitta en mindre uppsättning ansikten som ser ut ungefär som mål ansikte. Detta är användbart för att göra en ansiktssökning efter bild.
Gruppera ansikten Gruppåtgärden delar upp en uppsättning okända ansikten i flera mindre grupper baserat på likhet. Varje grupp är en åtskild delmängd av den ursprungliga uppsättningen ansikten. Den returnerar också en enda "messyGroup"-matris som innehåller ansikts-ID:n som inga likheter hittades för.
Identifiering Ansiktsidentifiering kan hantera "en-till-många"-matchning av ett ansikte i en bild till en uppsättning ansikten på en säker lagringsplats. Matchningskandidater returneras baserat på hur nära deras ansiktsdata matchar frågeyttan.
Ansiktsigenkänningsåtgärder Moderna företag och appar kan använda ansiktsigenkänningstekniker, inklusive ansiktsverifiering ("en-till-en"-matchning) och ansiktsidentifiering ("en-till-många"-matchning) för att bekräfta att en användare är den de påstår sig vara.
Identifiering av liveness Liveness detection (Liveness Detection) är en funktion för skydd mot förfalskning som kontrollerar om en användare är fysiskt närvarande framför kameran. Det används för att förhindra förfalskningsattacker med ett tryckt foto, inspelad video eller en 3D-mask av användarens ansikte.

Användningsfall

Följande tabell innehåller en lista över möjliga användningsfall för Azure AI Face Service.

Användningsfall beskrivning
Verifiera användaridentiteten. Verifiera en person mot en betrodd ansiktsbild. Den här verifieringen kan användas för att ge åtkomst till digitala eller fysiska egenskaper. I de flesta fall kan den betrodda ansiktsbilden komma från ett statligt utfärdat ID, till exempel ett pass eller körkort, eller så kan den komma från ett registreringsfoto taget personligen. Under verifieringen kan livenessidentifiering spela en viktig roll för att verifiera att bilden kommer från en verklig person, inte ett tryckt foto eller mask.
Ansiktsredigering Redigera eller sudda ut identifierade ansikten på personer som spelats in i en video för att skydda deras integritet.
Beröringsfri åtkomstkontroll. Jämfört med metoder som kort eller biljetter möjliggör opt-in ansiktsidentifiering en förbättrad åtkomstkontrollupplevelse samtidigt som hygien- och säkerhetsriskerna från fysisk mediedelning, förlust eller stöld minskar. Ansiktsigenkänning hjälper incheckningsprocessen med en människa i slingan för incheckningar på flygplatser, arenor, nöjesparker, byggnader, receptionskiosker på kontor, sjukhus, gym, klubbar eller skolor.

Azure AI Video Indexer

Azure AI Video Indexer är ett molnprogram som ingår i Azure AI-tjänster som bygger på Azure AI-tjänster (till exempel Ansiktsigenkänning, Translator, Azure AI Vision och Speech). Det gör att du kan extrahera insikterna från dina videor med hjälp av video- och ljudmodeller i Azure AI Video Indexer.

Funktioner

Följande tabell innehåller en lista över några av de funktioner som är tillgängliga i Azure AI Video Indexer-tjänsten.

Kapacitet beskrivning
Talidentifiering och transkription på flera språk Identifierar det talade språket i olika segment från ljud. Tjänsten skickar varje segment av mediefilen som ska transkriberas, och sedan kombineras transkriptionerna till en enda transkription.
Ansiktsigenkänning Identifierar och grupperar ansikten som visas i videon.
Kändisidentifiering Identifierar över 1 miljon kändisar – som världsledare, skådespelare, konstnärer, idrottare, forskare, företag och teknikledare över hela världen. Data om dessa kändisar finns också på olika webbplatser (IMDB, Wikipedia och så vidare.)
Kontobaserad ansiktsidentifiering Tränar en modell för ett specifikt konto. Sedan identifieras ansikten i videon baserat på den tränade modellen.
Spårning av observerade personer (förhandsversion) Identifierar observerade personer i videor och tillhandahåller information som personens plats i videoramen (med avgränsningsrutor) och den exakta tidsstämpeln (start, slut) och konfidens när en person visas.
Ljudavskrift Konverterar tal till text över 50 språk och tillåter tillägg.
Språkidentifiering Identifierar det dominerande talade språket.
Brusreducering Rensar telefoniljud eller brusinspelningar (baserat på Skype-filter).
Översättning Skapar översättningar av ljudavskriften till många olika språk.

Mer information om fler funktioner i Azure AI Video Indexer-tjänsten finns i dokumentationen om Azure AI Video Indexer.

Användningsfall

Följande tabell innehåller en lista över möjliga användningsfall för Azure AI Video Indexer-tjänsten.

Användningsfall beskrivning
Djupsökning Använd insikterna som extraheras från videon för att förbättra sökupplevelsen i ett videobibliotek. Indexering av talade ord och ansikten kan till exempel göra det möjligt att söka efter ögonblick i en video där en person talade vissa ord eller när två personer sågs tillsammans. Sökning baserat på sådana insikter från videor gäller för nyhetsbyråer, utbildningsinstitut, programföretag, ägare av underhållningsinnehåll, företagsspecifika appar och i allmänhet för alla branscher som har ett videobibliotek som användarna behöver söka efter.
Innehållsskapande Skapa trailers, markera hjul, innehåll på sociala medier eller nyhetsklipp baserat på insikterna som Azure AI Video Indexer extraherar från ditt innehåll. Nyckelramar, scenmarkörer och tidsstämplar för personer och etikettutseenden gör processen smidigare och enklare så att du enkelt kan komma åt de delar av videon som du behöver när du skapar innehåll.
Tillgänglighet Oavsett om du vill göra ditt innehåll tillgängligt för personer med funktionshinder eller om du vill att ditt innehåll ska distribueras till olika regioner med olika språk kan du använda transkriptionen och översättningen som tillhandahålls av Azure AI Video Indexer på flera språk.
Skapa intäkter Azure AI Video Indexer kan hjälpa till att öka värdet på videor. Branscher som förlitar sig på annonsintäkter (nyhetsmedier, sociala medier och så vidare) kan till exempel leverera relevanta annonser med hjälp av de extraherade insikterna som ytterligare signaler till annonsservern.
Innehållsmoderering Använd text- och visuella con tältläge rationsmodeller för att skydda användarna från olämpligt innehåll och verifiera att innehållet du publicerar matchar organisationens värden. Du kan automatiskt blockera vissa videor eller varna användarna om innehållet.
Rekommendationer Videoinsikter kan användas för att förbättra användarnas engagemang genom att markera relevanta videoögonblick för användarna. Genom att tagga varje video med ytterligare metadata kan du rekommendera användarna de mest relevanta videorna och markera de delar av videon som matchar deras behov.

Nästa steg