Kom igång med Azure AI Vision

Slutförd

Möjligheten för datorsystem att bearbeta skriven och tryckt text är ett ai-område där visuellt innehåll korsar bearbetning av naturligt språk. Visionsfunktioner behövs för att "läsa" texten och sedan är bearbetningsfunktionerna för naturligt språk meningsfulla.

OCR är grunden för bearbetning av text i bilder och använder maskininlärningsmodeller som tränas att identifiera enskilda former som bokstäver, siffror, skiljetecken eller andra textelement. När de här funktionerna utvecklades skedde implementeringen till stor del inom postverket i syfte att automatisera sorteringen av post baserat på postnummer. Sedan dess har den senaste tekniken för att läsa text gått vidare och vi har modeller som identifierar tryckt eller handskriven text i en bild och läser den rad för rad och ord för ord.

A screenshot of an envelope showing a handwritten address with typed text next to it.

OCR-motorn i Azure AI Vision

Azure AI Vision-tjänsten har möjlighet att extrahera maskinläsbar text från bilder. Läs-API för Azure AI Vision är OCR-motorn som driver textextrahering från bilder, PDF-filer och TIFF-filer. OCR för bilder är optimerat för allmänna bilder som inte är dokument som gör det enklare att bädda in OCR i dina användarupplevelsescenarier.

Read-API:et, även kallat Read OCR-motorn, använder de senaste igenkänningsmodellerna och är optimerat för bilder som har en betydande mängd text eller har betydande visuellt brus. Den kan automatiskt fastställa vilken igenkänningsmodell som ska användas med hänsyn till antalet textrader, bilder som innehåller text och handskrift.

OCR-motorn tar in en bildfil och identifierar avgränsningsrutor, eller koordinater, där objekt finns i en bild. I OCR identifierar modellen avgränsningsrutor runt allt som verkar vara text i bilden.

Om du anropar läs-API:et returneras resultat ordnade i följande hierarki:

  • Sidor – en för varje sida med text, inklusive information om sidstorlek och orientering.
  • Rader – raderna med text på en sida.
  • Ord – Orden i en textrad, inklusive koordinaterna för avgränsningsrutan och själva texten.

Varje rad och ord har även koordinater för avgränsningsrutan som anger positionen på sidan.

A screenshot showing bounding boxes around the page, line, and word of a letter.