Volání rozhraní AZURE AI Vision v3.2 GA Read API
V této příručce se dozvíte, jak volat rozhraní API ga verze 3.2 k extrakci textu z obrázků. Dozvíte se různé způsoby, jak můžete nakonfigurovat chování tohoto rozhraní API tak, aby vyhovovalo vašim potřebám.
Následující kroky předpokládají, že jste už vytvořili prostředek Počítačové zpracování obrazu a získali adresu URL klíče a koncového bodu. Pokud jste to neudělali, podívejte se na rychlý start , abyste mohli začít.
Edice OCR (Read)
Důležité
Vyberte edici Read, která nejlépe vyhovuje vašim požadavkům.
Vstup | Příklady | Číst edici | Výhoda |
---|---|---|---|
Obrázky: Obecné, in-the-wild images | štítky, dopravní značky a plakáty | OCR pro image (verze 4.0) | Optimalizované pro obecné nedokumentované obrázky s využitím synchronního rozhraní API s vylepšeným výkonem, které usnadňuje vkládání OCR ve scénářích uživatelského prostředí. |
Dokumenty: Digitální a naskenované, včetně obrázků | knihy, články a sestavy | Model čtení funkce Document Intelligence | Optimalizované pro naskenované a digitální dokumenty náročné na text s asynchronním rozhraním API, které pomáhá automatizovat inteligentní zpracování dokumentů ve velkém měřítku. |
Informace o azure AI Vision verze 3.2 – obecná dostupnost
Hledáte nejnovější verzi Ga služby Azure AI Vision verze 3.2? Všechna budoucí vylepšení OCR pro čtení jsou součástí dvou dříve uvedených služeb. Ve službě Azure AI Vision verze 3.2 nejsou žádné další aktualizace. Další informace najdete v tématu Volání rozhraní AZURE AI Vision 3.2 GA Read API a rychlého startu: Azure AI Vision v3.2 GA Read.
Určení způsobu zpracování dat (volitelné)
Určení modelu OCR
Ve výchozím nastavení služba k extrakci textu používá nejnovější obecně dostupný model (GA). Počínaje verzí Read v3.2 model-version
umožňuje parametr pro danou verzi rozhraní API zvolit mezi verzemi GA a Preview. Zadaný model se používá k extrakci textu pomocí operace čtení.
Při použití operace čtení použijte pro volitelný model-version
parametr následující hodnoty.
Hodnota | Použitý model |
---|---|
Nezadá se | Nejnovější model GA |
Nejpozdější | Nejnovější model GA |
2022-04-30 | Nejnovější model GA. 164 jazyků pro tisk textu a 9 jazyků pro rukou psaný text spolu s několika vylepšeními kvality a výkonu |
2022-01-30 | Přidá podporu tisku textu pro hindštinu, arabštinu a související jazyky. Pro rukou psaný text přidá podporu pro japonštinu a korejštinu. |
2021-09-30 | Přidá podporu tisku textu pro ruštinu a další jazyky cyrilice. Pro rukou psaný text přidá podporu pro zjednodušenou čínštinu, francouzštinu, němčinu, italštinu, portugalštinu a španělštinu. |
2021-04-12 | Model GA 2021 |
Jazyk zadávání
Ve výchozím nastavení služba extrahuje veškerý text z obrázků nebo dokumentů včetně smíšených jazyků. Operace čtení má volitelný parametr požadavku pro jazyk. Kód jazyka zadejte pouze v případě, že chcete vynutit zpracování dokumentu jako konkrétního jazyka. Jinak může služba vrátit neúplný a nesprávný text.
Výstup přirozeného pořadí čtení (pouze jazyky latinky)
Ve výchozím nastavení služba vypíše textové řádky v pořadí zleva doprava. Volitelně můžete s parametrem readingOrder
požadavku použít natural
pro popisnější výstup pořadí čtení, jak je znázorněno v následujícím příkladu. Tato funkce je podporována pouze pro jazyky latinky.
Výběr stránek nebo oblastí stránek pro extrakci textu
Ve výchozím nastavení služba extrahuje text ze všech stránek v dokumentech. Volitelně můžete pomocí parametru pages
požadavku zadat čísla stránek nebo rozsahy stránek k extrakci textu pouze z těchto stránek. Následující příklad ukazuje dokument s 10 stránkami s textem extrahovaným pro oba případy: Všechny stránky (1–10) a Vybrané stránky (3-6).
Odeslání dat do služby
Do rozhraní API pro čtení odešlete místní obrázek nebo vzdálený obrázek. V případě místního umístění vložíte data binárního obrázku do textu požadavku HTTP. Pro vzdálený přístup zadáte adresu URL obrázku tak, že naformátujete text požadavku jako v následujícím příkladu.
{"url":"http://example.com/images/test.jpg"}
Volání pro čtení rozhraní API pro čtení přebírá jako vstup obrázek nebo dokument PDF a asynchronně extrahuje text.
https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]
Volání se vrátí s polem hlavičky odpovědi s názvem Operation-Location
. Hodnota Operation-Location
je adresa URL, která obsahuje ID operace, které se má použít v dalším kroku.
Hlavička odpovědi | Příklad hodnoty |
---|---|
Umístění operace | https://cognitiveservice/vision/v3.2/read/analyzeResults/d3d3d3d3-eeee-ffff-aaaa-b4b4b4b4b4b4 |
Poznámka:
Fakturace
Stránka s cenami služby Azure AI Vision zahrnuje cenovou úroveň operací čtení. Každý analyzovaný obrázek nebo stránka je jedna transakce. Pokud zavoláte operaci s dokumentem PDF nebo TIFF obsahujícím 100 stránek, operace čtení ji spočítá jako 100 transakcí a bude vám účtováno 100 transakcí. Pokud jste provedli 50 volání operace a každé volání odeslalo dokument se 100 stránkami, bude se vám účtovat 50 X 100 = 5000 transakcí.
Získání výsledků ze služby
Druhým krokem je volání operace Získat výsledek čtení. Tato operace přebírá jako vstup ID operace vytvořené operací čtení.
https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}
Vrátí odpověď JSON, která obsahuje pole stavu s následujícími možnými hodnotami.
Hodnota | Význam |
---|---|
notStarted |
Operace nebyla spuštěna. |
running |
Operace se zpracovává. |
failed |
Operace se nezdařila. |
succeeded |
Operace byla úspěšná. |
Tuto operaci zavoláte iterativním způsobem, dokud se nevrátí s úspěšnou hodnotou. Použijte interval 1 až 2 sekundy, abyste se vyhnuli překročení rychlosti požadavků za sekundu (RPS).
Poznámka:
Úroveň Free omezuje rychlost požadavků na 20 volání za minutu. Placená úroveň umožňuje na vyžádání zvýšit 30 RPS. Poznamenejte si identfier prostředků Azure a oblast a otevřete lístek podpora Azure nebo se obraťte na tým poskytující účty a požádejte o vyšší sazbu RPS.
Pokud pole stavu obsahuje succeeded
hodnotu, odpověď JSON obsahuje extrahovaný textový obsah z obrázku nebo dokumentu. Odpověď JSON udržuje původní řádkové seskupení rozpoznaných slov. Obsahuje extrahované textové čáry a jejich souřadnice ohraničujícího rámečku. Každý řádek textu obsahuje všechna extrahovaná slova se svými souřadnicemi a skóre spolehlivosti.
Poznámka:
Data odeslaná do operace čtení jsou dočasně zašifrovaná a uložená v klidovém stavu po krátkou dobu a pak se odstraní. To umožňuje aplikacím načíst extrahovaný text jako součást odpovědi služby.
Ukázkový výstup JSON
Podívejte se na následující příklad úspěšné odpovědi JSON:
{
"status": "succeeded",
"createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
"lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
"analyzeResult": {
"version": "3.2",
"readResults": [
{
"page": 1,
"angle": 2.1243,
"width": 502,
"height": 252,
"unit": "pixel",
"lines": [
{
"boundingBox": [
58,
42,
314,
59,
311,
123,
56,
121
],
"text": "Tabs vs",
"appearance": {
"style": {
"name": "handwriting",
"confidence": 0.96
}
},
"words": [
{
"boundingBox": [
68,
44,
225,
59,
224,
122,
66,
123
],
"text": "Tabs",
"confidence": 0.933
},
{
"boundingBox": [
241,
61,
314,
72,
314,
123,
239,
122
],
"text": "vs",
"confidence": 0.977
}
]
}
]
}
]
}
}
Ručně psaná klasifikace pro textové řádky (pouze latinky)
Odpověď obsahuje klasifikaci toho, jestli je každý řádek textu v rukou psaném stylu nebo ne, spolu se skóre spolehlivosti. Tato funkce je dostupná jenom pro jazyky latinky. Následující příklad ukazuje rukou psanou klasifikaci textu na obrázku.