Få insikter om optisk teckenigenkänning (OCR)
Optisk teckenläsning (OCR)
OCR extraherar text från bilder som bilder, gatuskyltar och produkter i mediefiler för att skapa insikter.
OCR extraherar insikter från tryckt och handskriven text på över 50 språk, inklusive från en bild med text på flera språk. Mer information finns i SPRÅK som stöds av OCR.
Mer information om OCR finns i OCR-teknik.
OCR-användningsfall
- Djupsökning av mediefilmer efter bilder med skyltar, gatunamn eller bilskyltar, till exempel inom polisen.
- Extrahera text från bilder i mediefiler och sedan översätta den till flera språk i etiketter för hjälpmedel, till exempel i media eller underhållning.
- Identifiera varumärkesnamn i bilder och tagga dem i översättningssyfte, till exempel i reklam och varumärkesanpassning.
- Extrahera text i bilder som sedan automatiskt taggas och kategoriseras för tillgänglighet och framtida användning, till exempel för att generera innehåll på en nyhetsbyrå.
- Extrahera text i varningar i onlineinstruktioner och sedan översätta texten så att den uppfyller lokala standarder, till exempel e-inlärningsinstruktioner för användning av utrustning.
Visa insikts-JSON med webbportalen
När du har laddat upp och indexerat en video är insikter tillgängliga i JSON-format för nedladdning med hjälp av webbportalen.
- Välj fliken Bibliotek .
- Välj media som du vill arbeta med.
- Välj Ladda ned och Insikter (JSON). JSON-filen öppnas på en ny webbläsarflik.
- Leta efter nyckelparet som beskrivs i exempelsvaret.
Använda API:et
- Använd begäran hämta videoindex. Vi rekommenderar att du skickar
&includeSummarizedInsights=false
. - Leta efter nyckelparen som beskrivs i exempelsvaret.
Exempelsvar
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
Viktigt!
Det är viktigt att läsa översikten över transparensanteckningen för alla VI-funktioner. Varje insikt har också egna transparensanteckningar:
OCR-anteckningar
- Video Indexer har en OCR-gräns på 50 000 ord per indexerad video. När gränsen har nåtts genereras inga ytterligare OCR-resultat.
- Överväg noggrant resultatens noggrannhet, för att främja mer exakta identifieringar, kontrollera kvaliteten på bilden, bilder av låg kvalitet kan påverka de identifierade insikterna.
- Tänk noga på när du använder för brottsbekämpning. OCR kan misstolka eller inte identifiera delar av texten. För att säkerställa rättvisa och högkvalitativa VI-bestämningar kombinerar du OCR-baserad automatisering med mänsklig tillsyn.
- När du extraherar handskriven text bör du undvika att använda OCR-resultatet av signaturer som är svåra att läsa för både människor och datorer. Ett bättre sätt att använda OCR är att använda det för att identifiera förekomsten av en signatur för ytterligare analys.
- Använd inte OCR för beslut som kan ha allvarliga negativa effekter för individer eller grupper. Maskininlärningsmodeller som extraherar text kan resultera i oidentifierade eller felaktiga textutdata. Beslut som baseras på felaktiga utdata kan få allvarliga negativa effekter som måste undvikas. Du bör alltid inkludera mänsklig granskning av beslut som kan få allvarliga konsekvenser för enskilda personer.
OCR-komponenter
Under OCR-proceduren bearbetas textbilder i en mediefil enligt följande:
Komponent | Definition |
---|---|
Källfil | Användaren laddar upp källfilen för indexering. |
Läs modell | Bilder identifieras i mediefilen och texten och extraheras och analyseras sedan av Azure AI-tjänster. |
Hämta modell för läsresultat | Utdata från den extraherade texten visas i en JSON-fil. |
Konfidensvärde | Den uppskattade konfidensnivån för varje ord beräknas som ett intervall på 0 till 1. Konfidenspoängen representerar säkerheten i resultatets noggrannhet. Till exempel representeras en säkerhet på 82 % som 0,82 poäng. |