Začínáme s Azure AI Vision

3 min

Schopnost počítačových systémů zpracovávat psaný a tištěný text je oblast umělé inteligence, ve které počítačové zpracování obrazu protíná zpracování přirozeného jazyka. Funkce zpracování obrazu jsou potřeba k "čtení" textu a následné schopnosti zpracování přirozeného jazyka z něj mají smysl.

OCR je základem zpracování textu na obrázcích a používá modely strojového učení, které jsou natrénované k rozpoznávání jednotlivých obrazců jako písmen, číslic, interpunkce nebo jiných prvků textu. Většinu raných prací na implementaci tohoto druhu funkcí prováděly poštovní společnosti kvůli podpoře automatického třídění pošty na základě poštovních směrovacích čísel. Od té doby se state-of-the-art pro čtení textu přesunul dál a máme modely, které detekují tištěný nebo ručně psaný text na obrázku a čtou ho řádek po řádku a slovo po slovech.

A screenshot of an envelope showing a handwritten address with typed text next to it.

Modul OCR služby Azure AI Vision

Služba Azure AI Vision má možnost extrahovat strojově čitelný text z obrázků. Rozhraní API služby Azure AI Vision pro čtení je modul OCR, který zajišťuje extrakci textu z obrázků, souborů PDF a TIFF. Technologie OCR pro obrázky je optimalizovaná pro obecné nedokumentované obrázky, které usnadňují vkládání OCR ve scénářích uživatelského prostředí.

Rozhraní API pro čtení, jinak označované jako modul pro čtení OCR, používá nejnovější modely rozpoznávání a je optimalizovaný pro obrázky, které mají značné množství textu nebo mají značný vizuální šum. Dokáže automaticky určit správný model rozpoznávání, který se má použít s ohledem na počet řádků textu, obrázků, které obsahují text a rukopis.

Modul OCR přebírá soubor obrázku a identifikuje ohraničující rámečky nebo souřadnice, ve kterých se položky nacházejí v obrázku. V OCR model identifikuje ohraničující pole kolem všeho, co se zdá být textem na obrázku.

Volání rozhraní API pro čtení vrátí výsledky uspořádané do následující hierarchie:

Stránky – Jedna pro každou stránku textu, včetně informací o velikosti a orientaci stránky.
Řádky – Řádky textu na stránce.
Slova – slova v řádku textu, včetně souřadnic ohraničujícího pole a samotného textu.

Každý řádek a slovo obsahuje souřadnice ohraničujícího rámečku označující jeho pozici na stránce.

A screenshot showing bounding boxes around the page, line, and word of a letter.

Začínáme s Azure AI Vision

Modul OCR služby Azure AI Vision

Váš názor