Volání rozhraní AZURE AI Vision v3.2 GA Read API

Článek
10/17/2024

V této příručce se dozvíte, jak volat rozhraní API ga verze 3.2 k extrakci textu z obrázků. Dozvíte se různé způsoby, jak můžete nakonfigurovat chování tohoto rozhraní API tak, aby vyhovovalo vašim potřebám.

Následující kroky předpokládají, že jste už vytvořili prostředek Počítačové zpracování obrazu a získali adresu URL klíče a koncového bodu. Pokud jste to neudělali, podívejte se na rychlý start , abyste mohli začít.

Edice OCR (Read)

Důležité

Vyberte edici Read, která nejlépe vyhovuje vašim požadavkům.

Vstup	Příklady	Číst edici	Výhoda
Obrázky: Obecné, in-the-wild images	štítky, dopravní značky a plakáty	OCR pro image (verze 4.0)	Optimalizované pro obecné nedokumentované obrázky s využitím synchronního rozhraní API s vylepšeným výkonem, které usnadňuje vkládání OCR ve scénářích uživatelského prostředí.
Dokumenty: Digitální a naskenované, včetně obrázků	knihy, články a sestavy	Model čtení funkce Document Intelligence	Optimalizované pro naskenované a digitální dokumenty náročné na text s asynchronním rozhraním API, které pomáhá automatizovat inteligentní zpracování dokumentů ve velkém měřítku.

Informace o azure AI Vision verze 3.2 – obecná dostupnost

Hledáte nejnovější verzi Ga služby Azure AI Vision verze 3.2? Všechna budoucí vylepšení OCR pro čtení jsou součástí dvou dříve uvedených služeb. Ve službě Azure AI Vision verze 3.2 nejsou žádné další aktualizace. Další informace najdete v tématu Volání rozhraní AZURE AI Vision 3.2 GA Read API a rychlého startu: Azure AI Vision v3.2 GA Read.

Určení způsobu zpracování dat (volitelné)

Určení modelu OCR

Ve výchozím nastavení služba k extrakci textu používá nejnovější obecně dostupný model (GA). Počínaje verzí Read v3.2 model-version umožňuje parametr pro danou verzi rozhraní API zvolit mezi verzemi GA a Preview. Zadaný model se používá k extrakci textu pomocí operace čtení.

Při použití operace čtení použijte pro volitelný model-version parametr následující hodnoty.

Hodnota	Použitý model
Nezadá se	Nejnovější model GA
Nejpozdější	Nejnovější model GA
2022-04-30	Nejnovější model GA. 164 jazyků pro tisk textu a 9 jazyků pro rukou psaný text spolu s několika vylepšeními kvality a výkonu
2022-01-30	Přidá podporu tisku textu pro hindštinu, arabštinu a související jazyky. Pro rukou psaný text přidá podporu pro japonštinu a korejštinu.
2021-09-30	Přidá podporu tisku textu pro ruštinu a další jazyky cyrilice. Pro rukou psaný text přidá podporu pro zjednodušenou čínštinu, francouzštinu, němčinu, italštinu, portugalštinu a španělštinu.
2021-04-12	Model GA 2021

Jazyk zadávání

Ve výchozím nastavení služba extrahuje veškerý text z obrázků nebo dokumentů včetně smíšených jazyků. Operace čtení má volitelný parametr požadavku pro jazyk. Kód jazyka zadejte pouze v případě, že chcete vynutit zpracování dokumentu jako konkrétního jazyka. Jinak může služba vrátit neúplný a nesprávný text.

Výstup přirozeného pořadí čtení (pouze jazyky latinky)

Ve výchozím nastavení služba vypíše textové řádky v pořadí zleva doprava. Volitelně můžete s parametrem readingOrder požadavku použít natural pro popisnější výstup pořadí čtení, jak je znázorněno v následujícím příkladu. Tato funkce je podporována pouze pro jazyky latinky.

Snímek obrazovky s příkladem pořadí čtení OCR

Výběr stránek nebo oblastí stránek pro extrakci textu

Ve výchozím nastavení služba extrahuje text ze všech stránek v dokumentech. Volitelně můžete pomocí parametru pages požadavku zadat čísla stránek nebo rozsahy stránek k extrakci textu pouze z těchto stránek. Následující příklad ukazuje dokument s 10 stránkami s textem extrahovaným pro oba případy: Všechny stránky (1–10) a Vybrané stránky (3-6).

Snímek obrazovky znázorňující výstup ze všech stránek a z vybraných stránek

Odeslání dat do služby

Do rozhraní API pro čtení odešlete místní obrázek nebo vzdálený obrázek. V případě místního umístění vložíte data binárního obrázku do textu požadavku HTTP. Pro vzdálený přístup zadáte adresu URL obrázku tak, že naformátujete text požadavku jako v následujícím příkladu.

{"url":"http://example.com/images/test.jpg"}

Volání pro čtení rozhraní API pro čtení přebírá jako vstup obrázek nebo dokument PDF a asynchronně extrahuje text.

https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]

Volání se vrátí s polem hlavičky odpovědi s názvem Operation-Location. Hodnota Operation-Location je adresa URL, která obsahuje ID operace, které se má použít v dalším kroku.

Hlavička odpovědi	Příklad hodnoty
Umístění operace	`https://cognitiveservice/vision/v3.2/read/analyzeResults/d3d3d3d3-eeee-ffff-aaaa-b4b4b4b4b4b4`

Poznámka:

Fakturace

Stránka s cenami služby Azure AI Vision zahrnuje cenovou úroveň operací čtení. Každý analyzovaný obrázek nebo stránka je jedna transakce. Pokud zavoláte operaci s dokumentem PDF nebo TIFF obsahujícím 100 stránek, operace čtení ji spočítá jako 100 transakcí a bude vám účtováno 100 transakcí. Pokud jste provedli 50 volání operace a každé volání odeslalo dokument se 100 stránkami, bude se vám účtovat 50 X 100 = 5000 transakcí.

Získání výsledků ze služby

Druhým krokem je volání operace Získat výsledek čtení. Tato operace přebírá jako vstup ID operace vytvořené operací čtení.

https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}

Vrátí odpověď JSON, která obsahuje pole stavu s následujícími možnými hodnotami.

Hodnota	Význam
`notStarted`	Operace nebyla spuštěna.
`running`	Operace se zpracovává.
`failed`	Operace se nezdařila.
`succeeded`	Operace byla úspěšná.

Tuto operaci zavoláte iterativním způsobem, dokud se nevrátí s úspěšnou hodnotou. Použijte interval 1 až 2 sekundy, abyste se vyhnuli překročení rychlosti požadavků za sekundu (RPS).

Poznámka:

Úroveň Free omezuje rychlost požadavků na 20 volání za minutu. Placená úroveň umožňuje na vyžádání zvýšit 30 RPS. Poznamenejte si identfier prostředků Azure a oblast a otevřete lístek podpora Azure nebo se obraťte na tým poskytující účty a požádejte o vyšší sazbu RPS.

Pokud pole stavu obsahuje succeeded hodnotu, odpověď JSON obsahuje extrahovaný textový obsah z obrázku nebo dokumentu. Odpověď JSON udržuje původní řádkové seskupení rozpoznaných slov. Obsahuje extrahované textové čáry a jejich souřadnice ohraničujícího rámečku. Každý řádek textu obsahuje všechna extrahovaná slova se svými souřadnicemi a skóre spolehlivosti.

Poznámka:

Data odeslaná do operace čtení jsou dočasně zašifrovaná a uložená v klidovém stavu po krátkou dobu a pak se odstraní. To umožňuje aplikacím načíst extrahovaný text jako součást odpovědi služby.

Ukázkový výstup JSON

Podívejte se na následující příklad úspěšné odpovědi JSON:

{
  "status": "succeeded",
  "createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
  "lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 2.1243,
        "width": 502,
        "height": 252,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              58,
              42,
              314,
              59,
              311,
              123,
              56,
              121
            ],
            "text": "Tabs vs",
            "appearance": {
              "style": {
                "name": "handwriting",
                "confidence": 0.96
              }
            },
            "words": [
              {
                "boundingBox": [
                  68,
                  44,
                  225,
                  59,
                  224,
                  122,
                  66,
                  123
                ],
                "text": "Tabs",
                "confidence": 0.933
              },
              {
                "boundingBox": [
                  241,
                  61,
                  314,
                  72,
                  314,
                  123,
                  239,
                  122
                ],
                "text": "vs",
                "confidence": 0.977
              }
            ]
          }
        ]
      }
    ]
  }
}

Ručně psaná klasifikace pro textové řádky (pouze latinky)

Odpověď obsahuje klasifikaci toho, jestli je každý řádek textu v rukou psaném stylu nebo ne, spolu se skóre spolehlivosti. Tato funkce je dostupná jenom pro jazyky latinky. Následující příklad ukazuje rukou psanou klasifikaci textu na obrázku.

Snímek obrazovky znázorňující příklad klasifikace rukopisu OCR

Sdílet prostřednictvím

Volání rozhraní AZURE AI Vision v3.2 GA Read API

Edice OCR (Read)