Získání přehledů o optickém rozpoznávání znaků (OCR)
Optické rozpoznávání znaků (OCR)
OCR extrahuje text z obrázků, jako jsou obrázky, pouliční značky a produkty v mediálních souborech, a vytváří tak přehledy.
OCR extrahuje přehledy z tištěného a rukou psaného textu ve více než 50 jazycích, včetně obrázku s textem ve více jazycích. Další informace najdete v tématu Podporované jazyky OCR.
Další informace o technologii OCR najdete v tématu Technologie OCR.
Případy použití OCR
- Hloubkové vyhledávání mediálních záběrů pro obrázky s signposty, názvy ulic nebo autolicencemi, například v prosazování práva.
- Extrahování textu z obrázků v mediálních souborech a jeho následné překlad do více jazyků v popiscích pro usnadnění přístupu, například v médiích nebo zábavě.
- Rozpoznávání názvů značek na obrázcích a jejich označování pro účely překladu, například v reklamě a brandingu.
- Extrahování textu na obrázcích, které se pak automaticky označí a zařadí do kategorií pro přístupnost a budoucí použití, například k vygenerování obsahu v informační agentuře.
- Extrahování textu v upozorněních v online pokynech a následné překlad textu tak, aby vyhovoval místním standardům, například e-learning pokyny pro používání vybavení.
Zobrazení kódu JSON přehledu pomocí webového portálu
Po nahrání a indexování videa jsou přehledy k dispozici ve formátu JSON ke stažení pomocí webového portálu.
- Vyberte kartu Knihovna.
- Vyberte multimédia, se kterými chcete pracovat.
- Vyberte Stáhnout a přehledy (JSON). Soubor JSON se otevře na nové kartě prohlížeče.
- Vyhledejte pár klíčů popsaný v ukázkové odpovědi.
Použití rozhraní API
- Použijte požadavek Získat index videa. Doporučujeme předat
&includeSummarizedInsights=false
. - Vyhledejte páry klíčů popsané v ukázkové odpovědi.
Příklad odpovědi
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
Důležité
Je důležité si přečíst přehled poznámek transparentnosti pro všechny funkce VI. Každý přehled má také vlastní poznámky k transparentnosti:
Poznámky K OCR
- Video Indexer má limit OCR 50 000 slov na indexované video. Po dosažení limitu se nevygenerují žádné další výsledky OCR.
- Pečlivě zvažte přesnost výsledků, aby bylo možné zvýšit přesnost detekce, zkontrolovat kvalitu obrázku, obrázky s nízkou kvalitou můžou mít vliv na zjištěné přehledy.
- Při prosazování práva pečlivě zvažte. Služba OCR může chybně načíst nebo nerozpozná části textu. Aby bylo zajištěno spravedlivé a vysoce kvalitní stanovení VI, zkombinujte automatizaci založenou na technologii OCR s lidským dohledem.
- Při extrahování rukou psaného textu nepoužívejte výsledky OCR podpisů, které jsou obtížně čitelné pro lidi i počítače. Lepší způsob, jak použít OCR, je použít ho ke zjištění přítomnosti podpisu pro další analýzu.
- Nepoužívejte OCR pro rozhodnutí, která by mohla mít závažný nepříznivý dopad na jednotlivce nebo skupiny. Modely strojového učení, které extrahují text, můžou vést k nedetekci nebo nesprávnému textovému výstupu. Rozhodnutí založená na nesprávném výstupu mohou mít vážné nepříznivé dopady, kterým je třeba se vyhnout. Vždy byste měli zahrnout lidský přezkum rozhodnutí, která mají potenciál závažných dopadů na jednotlivce.
Komponenty OCR
Během procedury OCR se zpracují textové obrázky v mediálním souboru následujícím způsobem:
Komponenta | Definice |
---|---|
Zdrojový soubor | Uživatel nahraje zdrojový soubor pro indexování. |
Čtení modelu | Obrázky se detekují v mediálním souboru a textu a pak extrahují a analyzují služby Azure AI. |
Získání modelu výsledků čtení | Výstup extrahovaného textu se zobrazí v souboru JSON. |
Hodnota spolehlivosti | Odhadovaná úroveň spolehlivosti každého slova se vypočítá jako rozsah 0 až 1. Skóre spolehlivosti představuje jistotu přesnosti výsledku. Například 82% jistota je reprezentována jako skóre 0,82. |