Sdílet prostřednictvím


Akce OCR

Power Automate umožňuje uživatelům číst, extrahovat a spravovat data v souborech prostřednictvím optického rozpoznávání znaků (OCR).

Chcete-li vytvořit modul OCR a extrahovat text z obrázků a dokumentů, použijte akci Extrahovat text pomocí OCR. Následující příklad extrahuje text z celého zadaného obrázku.

Screenshot akce Extrahovat text pomocí OCR.

Všechny akce OCR mohou vytvořit novou proměnnou modulu OCR nebo použít existující. Proměnné modulu OCR můžete použít v jakékoli akci nabízející funkce OCR.

Power Automate podporuje modul Windows OCR i modul Tesseract. Chcete-li nakonfigurovat vybraný modul OCR, přejděte na nastavení modulu OCR příslušné akce. Mezi dostupné možnosti patří jazyk a multiplikátory šířky a výšky obrazu.

Poznámka:

  • Všechny dostupné moduly OCR jsou předinstalované v Power Automate a pracují lokálně bez připojení ke cloudu. K extrahování textů v určitých jazycích však možná budete muset stáhnout jazykové balíčky nebo datové soubory.
  • Multiplikátory obrázků zvětšují velikost obrázku, aby bylo efektivnější vyhledávání a extrakce textu. Nastavení hodnot větších než 3 může vést k chybným výsledkům.

Použití modulu Windows OCR

Výchozí modul OCR v Power Automate je modul Windows OCR. Chcete-li extrahovat texty pomocí modulu Windows OCR, musíte nainstalovat příslušný jazykový balíček pro jazyk, který chcete extrahovat.

Pokud nebyl nainstalován příslušný jazykový balíček, Power Automate zobrazí chybu s výzvou k instalaci. Další informace o stahování a instalaci jazykových balíčků naleznete v části Jazykové balíčky pro Windows.

Po instalaci příslušného jazykového balíčku rozšiřte Nastavení modulu OCR akce OCR a vyberte požadovaný jazyk. Modul Windows OCR podporuje 25 jazyků: čínštinu (zjednodušenou a tradiční), češtinu, dánštinu, nizozemštinu, angličtinu, finštinu, francouzštinu, němčinu, řečtinu, maďarštinu, italštinu, japonštinu, korejštinu, norštinu, polštinu, portugalštinu, rumunštinu, ruštinu, srbštinu (cyrilice a latinka), slovenštinu, španělštinu, švédštinu a turečtinu.

Použití modulu Tesseract OCR

Poznámka:

Chcete-li použít modul OCR Tesseract, ujistěte se, že CPU počítače podporuje sadu instrukcí AVX2.

Kromě modulu Windows OCR Power Automate podporuje modul Tesseract. Tento engine dokáže extrahovat text v pěti jazycích bez další konfigurace: angličtině, němčině, španělštině, francouzštině a italštině.

Chcete-li extrahovat text v jazyce mimo uvedený seznam, povolte možnost Používat jiné jazyky v Nastavení modulu OCR akce OCR. Když je tato možnost aktivní, akce zobrazí dva další parametry: Zkratka jazyka a Datová cesta jazyka.

Pole Zkratka jazyka označuje stroji, který jazyk má během OCR hledat. Pole Cesta dat jazyka obsahuje jazykové datové soubory (.traineddata) používané k trénování stroje OCR. Jazykové datové soubory pro všechny dostupné jazyky naleznete v tomto úložišti GitHub.

Můžete také použít modul Tesseract lze k extrahování textu z vícejazyčných dokumentů. Další informace o extrahování textu z vícejazyčných dokumentů naleznete v části Provádění OCR na vícejazyčných dokumentech.

Pokud text na obrazovce (OCR)

Označí začátek podmíněného bloku akcí v závislosti na tom, zda se daný text zobrazí na obrazovce, s použitím OCR.

Vstupní parametry

Argument Volitelné Přijímá Výchozí hodnota Description
If text Není k dispozici Existuje, neexistuje Existuje Určuje, zda zkontrolovat, jestli existuje text na daném zdroji k analýze
Typ modulu OCR Ne Modul Windows OCR, modul Tesseract, proměnná modulu OCR Proměnná modulu OCR Typ stroje OCR, který se má použít. Vyberte předkonfigurovaný modul OCR nebo nastavte nový.
OCR engine variable Ne OCREngineObject Modul, který se má použít pro operaci OCR
Text to find Ne Textová hodnota Text, který se má vyhledat v zadaném zdroji
Is regular expression Není k dispozici Logická hodnota False Určuje, zda použít regulární výraz k nalezení zadaného textu
Search for text on Není k dispozici Celá obrazovka, okno popředí Celá obrazovka Určuje, zda vyhledat zadaný text na celé viditelné obrazovce, nebo pouze v okně v popředí
Search mode Celý zadaný zdroj, pouze konkrétní podoblast, podoblast vzhledem k obrázku Celý zadaný zdroj Určuje, zda prohledat celou obrazovku (nebo okno), nebo jen její zúženou podoblast
Image(s) Ne Seznamsnímků Obrázky určující podoblast (relativní k levému hornímu rohu obrázku), ve které se má vyhledat zadaný text
X1 Ano Číselná hodnota Počáteční souřadnice X podoblasti, ve které se má vyhledat zadaný text
Tolerance Ano Číselná hodnota 10 Určuje, do jaké míry se může hledaný obrázek lišit od původně vybraného obrázku
Y1 Ano Číselná hodnota Počáteční souřadnice Y podoblasti, ve které se má vyhledat zadaný text
X1 Ano Číselná hodnota Počáteční souřadnice X podoblasti relativní k určenému obrázku, ve kterém se má vyhledat zadaný text
X2 Ano Číselná hodnota Koncová souřadnice X podoblasti, ve které se má vyhledat zadaný text
Y1 Ano Číselná hodnota Počáteční souřadnice Y podoblasti relativní k určenému obrázku, ve kterém se má vyhledat zadaný text
Y2 Ano Číselná hodnota Koncová souřadnice Y podoblasti, ve které se má vyhledat zadaný text
X2 Ano Číselná hodnota Koncová souřadnice X podoblasti relativní k určenému obrázku, ve kterém se má vyhledat zadaný text
Y2 Ano Číselná hodnota Koncová souřadnice Y podoblasti relativní k určenému obrázku, ve kterém se má vyhledat zadaný text
Jazyk modulu Windows OCR Neuvedeno Čínština (zjednodušená), čínština (tradiční), čeština, dánštinu, nizozemština, angličtina, finština, francouzština, němčina, řečtina, maďarština, italština, japonština, korejština, norština, polština, portugalština, rumunština, ruština, srbština (cyrilice), srbština (latinka), slovenština, španělština, švédština, turečtina Angličtina Jazyk textu, který modul Windows OCR rozpozná
Použít jiný jazyk Neuvedeno Logická hodnota False Určuje, jestli se má použít jazyk, který není uveden v poli Jazyk modulu Tesseract
Jazyk Tesseract Neuvedeno Angličtina, němčina, španělština, francouzština, italština Angličtina Jazyk textu, který modul Tesseract detekuje
Zkratka jazyka Ne Textová hodnota Zkratka Tesseract jazyka, který se má použít. Pokud jsou například data „eng.traineddata“, nastavte parametr na „eng“
Cesta k datům jazyka Ne Textová hodnota Cesta ke složce, která obsahuje data Tesseract v zadaném jazyce
Násobitel šířky obrázku Ne Číselná hodnota 1 Násobitel šířky obrázku
Násobitel výšky obrázku Ne Číselná hodnota 1 Násobitel výšky obrázku
Algoritmus určení shody obrázku Základní, Rozšířený Základní Obrazový algoritmus, který se má použít při hledání obrázků

Poznámka:

Vytvořené proměnné

Argument Type Description
LocationOfTextFoundX Číselná hodnota Souřadnice X bodu, kde se text nachází na obrazovce. Pokud se hledání provádí v popředí, vrácená souřadnice je relativní k levému hornímu rohu okna
LocationOfTextFoundY Číselná hodnota Souřadnice X bodu, kde se text nachází na obrazovce. Pokud se hledání provádí v popředí, vrácená souřadnice je relativní k levému hornímu rohu okna

Výjimky

Výjimka Description
Nelze zkontrolovat, zda existuje text v neinteraktivním režimu Označuje, že není možné zkontrolovat text na obrazovce v neinteraktivním režimu
Neplatné souřadnice podoblasti Označuje, že souřadnice zadané podoblasti jsou neplatné
Nepodařilo se analyzovat text pomocí OCR Označuje, že došlo k chybě při pokusu analyzovat text pomocí OCR
Nepodařilo se vytvořit modul OCR Označuje, že došlo k chybě při pokusu o vytvoření modulu OCR
Složka cesty k datům neexistuje Označuje, že zadaná složka pro data jazyka neexistuje
Vybraná jazyková sada Windows není v počítači nainstalovaná Ukazuje, že vybraná jazyková sada Windows není v počítači nainstalovaná
Modul OCR není aktivní Označuje, že modul OCR není aktivní

Čekat na text na obrazovce (OCR)

Čekat, až se na obrazovce, v okně v popředí nebo v vzhledem k obrázku zobrazí na obrazovce nebo v okně v popředí konkrétní text pomocí OCR, nebo z nich zmizí.

Vstupní parametry

Argument Volitelné Přijímá Výchozí hodnota Description
Wait for text to Není k dispozici Zobrazit, Skrýt Zobrazit Určuje, zda čekat na zobrazení nebo zmizení textu
Typ modulu OCR Ne Modul Windows OCR, modul Tesseract, proměnná modulu OCR Proměnná modulu OCR Typ stroje OCR, který se má použít. Vyberte předkonfigurovaný modul OCR nebo nastavte nový.
OCR engine variable Ne OCREngineObject Modul, který se má použít pro operaci OCR
Text to find Ne Textová hodnota Text, který se má vyhledat v zadaném zdroji
Is regular expression Není k dispozici Logická hodnota False Určuje, zda použít regulární výraz k nalezení zadaného textu
Search for text on Není k dispozici Celá obrazovka, okno popředí Celá obrazovka Určuje, zda vyhledat zadaný text na celé viditelné obrazovce, nebo pouze v okně v popředí
Search mode Celý zadaný zdroj, pouze konkrétní podoblast, podoblast vzhledem k obrázku Celý zadaný zdroj Určuje, zda prohledat celou obrazovku (nebo okno), nebo jen její zúženou podoblast
Image(s) Ne Seznamsnímků Obrázky určující podoblast (relativní k levému hornímu rohu obrázku), ve které se má vyhledat zadaný text
X1 Ano Číselná hodnota Počáteční souřadnice X podoblasti, ve které se má vyhledat zadaný text
Tolerance Ano Číselná hodnota 10 Určuje, do jaké míry se může hledaný obrázek lišit od původně vybraného obrázku
Y1 Ano Číselná hodnota Počáteční souřadnice Y podoblasti, ve které se má vyhledat zadaný text
X1 Ano Číselná hodnota Počáteční souřadnice X podoblasti relativní k určenému obrázku, ve kterém se má vyhledat zadaný text
X2 Ano Číselná hodnota Koncová souřadnice X podoblasti, ve které se má vyhledat zadaný text
Y1 Ano Číselná hodnota Počáteční souřadnice Y podoblasti relativní k určenému obrázku, ve kterém se má vyhledat zadaný text
Y2 Ano Číselná hodnota Koncová souřadnice Y podoblasti, ve které se má vyhledat zadaný text
X2 Ano Číselná hodnota Koncová souřadnice X podoblasti relativní k určenému obrázku, ve kterém se má vyhledat zadaný text
Y2 Ano Číselná hodnota Koncová souřadnice Y podoblasti relativní k určenému obrázku, ve kterém se má vyhledat zadaný text
Jazyk modulu Windows OCR Neuvedeno Čínština (zjednodušená), čínština (tradiční), čeština, dánštinu, nizozemština, angličtina, finština, francouzština, němčina, řečtina, maďarština, italština, japonština, korejština, norština, polština, portugalština, rumunština, ruština, srbština (cyrilice), srbština (latinka), slovenština, španělština, švédština, turečtina Angličtina Jazyk textu, který modul Windows OCR rozpozná
Použít jiný jazyk Neuvedeno Logická hodnota False Určuje, jestli se má použít jazyk, který není uveden v poli Jazyk modulu Tesseract
Jazyk Tesseract Neuvedeno Angličtina, němčina, španělština, francouzština, italština Angličtina Jazyk textu, který modul Tesseract detekuje
Zkratka jazyka Ne Textová hodnota Zkratka Tesseract jazyka, který se má použít. Pokud jsou například data „eng.traineddata“, nastavte parametr na „eng“
Cesta k datům jazyka Ne Textová hodnota Cesta ke složce, která obsahuje data Tesseract v zadaném jazyce
Násobitel šířky obrázku Ne Číselná hodnota 1 Násobitel šířky obrázku
Násobitel výšky obrázku Ne Číselná hodnota 1 Násobitel výšky obrázku
Algoritmus určení shody obrázku Základní, Rozšířený Základní Obrazový algoritmus, který se má použít při hledání obrázků
Selhání s chybou časového limitu Logická hodnota False Určete, zda chcete, aby akce počkala neomezeně dlouho, nebo aby selhala po nastaveném časovém období

Poznámka:

Vytvořené proměnné

Argument Type Description
LocationOfTextFoundX Číselná hodnota Souřadnice X bodu, kde se text nachází na obrazovce. Pokud se hledání provádí v popředí, vrácená souřadnice je relativní k levému hornímu rohu okna
LocationOfTextFoundY Číselná hodnota Souřadnice X bodu, kde se text nachází na obrazovce. Pokud se hledání provádí v popředí, vrácená souřadnice je relativní k levému hornímu rohu okna

Výjimky

Výjimka Description
Nelze zkontrolovat, zda existuje text v neinteraktivním režimu Označuje, že není možné zkontrolovat text na obrazovce v neinteraktivním režimu
Neplatné souřadnice podoblasti Označuje, že souřadnice zadané podoblasti jsou neplatné
Nepodařilo se analyzovat text pomocí OCR Označuje, že došlo k chybě při pokusu analyzovat text pomocí OCR
Nepodařilo se vytvořit modul OCR Označuje, že došlo k chybě při pokusu o vytvoření modulu OCR
Složka cesty k datům neexistuje Označuje, že zadaná složka pro data jazyka neexistuje
Vybraná jazyková sada Windows není v počítači nainstalovaná Ukazuje, že vybraná jazyková sada Windows není v počítači nainstalovaná
Modul OCR není aktivní Označuje, že modul OCR není aktivní
Chyba: Vypršel časový limit Označuje, že akce selhala po nastavené době

Extrahovat text pomocí OCR

Extrahovat text z daného zdroje pomocí zadaného modulu OCR.

Vstupní parametry

Argument Volitelné Přijímá Výchozí hodnota Description
Modul OCR Ne Modul Windows OCR, modul Tesseract, proměnná modulu OCR Proměnná modulu OCR Typ stroje OCR, který se má použít. Vyberte předkonfigurovaný modul OCR nebo nastavte nový
Proměnná modulu OCR Ne OCREngineObject Modul, který se má použít pro operaci OCR
OCR source Není k dispozici Obrazovka, obrázek popředí, obrázek na disku Obrazovka Zdroj obrázku, na kterém se má provést operace OCR
Image file path Ne Soubor Cesta obrázku, na kterém se má provést operace OCR
Search mode Není k dispozici Celý zadaný zdroj, pouze konkrétní podoblast, podoblast vzhledem k obrázku Celý zadaný zdroj Vybraný režim pro operaci OCR
Image Ne Seznamsnímků Obrázek, který se má použít pro zúžení skenování na podoblast vzhledem k zadanému obrázku
Tolerance Ano Číselná hodnota 10 Určuje, do jaké míry se může obrázek lišit od původně vybraného obrázku
X1 Ano Číselná hodnota Počáteční souřadnice X podoblasti, na kterou zúžit skenování
X2 Ano Číselná hodnota Koncová souřadnice X podoblasti, na kterou zúžit skenování
Y1 Ano Číselná hodnota Počáteční souřadnice Y podoblasti, na kterou zúžit skenování
Y2 Ano Číselná hodnota Koncová souřadnice Y podoblasti, na kterou zúžit skenování
Jazyk modulu Windows OCR Neuvedeno Čínština (zjednodušená), čínština (tradiční), čeština, dánštinu, nizozemština, angličtina, finština, francouzština, němčina, řečtina, maďarština, italština, japonština, korejština, norština, polština, portugalština, rumunština, ruština, srbština (cyrilice), srbština (latinka), slovenština, španělština, švédština, turečtina Angličtina Jazyk textu, který modul Windows OCR rozpozná
Použít jiný jazyk Neuvedeno Logická hodnota False Určuje, jestli se má použít jazyk, který není uveden v poli Jazyk modulu Tesseract
Jazyk Tesseract Neuvedeno Angličtina, němčina, španělština, francouzština, italština Angličtina Jazyk textu, který modul Tesseract detekuje
Zkratka jazyka Ne Textová hodnota Zkratka Tesseract jazyka, který se má použít. Pokud jsou například data „eng.traineddata“, nastavte parametr na „eng“
Cesta k datům jazyka Ne Textová hodnota Cesta ke složce, která obsahuje data Tesseract v zadaném jazyce
Násobitel šířky obrázku Ne Číselná hodnota 1 Násobitel šířky obrázku
Násobitel výšky obrázku Ne Číselná hodnota 1 Násobitel výšky obrázku
Počkat na zobrazení obrázku Logická hodnota True Určuje, zda počkat, než se obrázek zobrazí na obrazovce nebo v okně v popředí
Časový limit Ne Číselná hodnota 5 Určuje čas čekání na dokončení operace, než akce selže
Algoritmus určení shody obrázku Základní, Rozšířený Základní Obrazový algoritmus, který se má použít při hledání obrázků

Poznámka:

Možnost Proměnná modulu OCR je plánována na ukončení podpory.

Vytvořené proměnné

Argument Type Description
OcrText Textová hodnota Výsledek extrakce textu

Výjimky

Výjimka Popis
Nepodařilo se extrahovat text pomocí OCR Označuje, že došlo k chybě při pokusu o extrahování textu pomocí OCR z daného zdroje
Soubor obrázku nenalezen Označuje, že soubor v dané cestě neexistuje
Obrázek orientačního bodu nenalezen Označuje, že obrázek orientačního bodu neexistuje
Nelze získat text z obrazovky v neinteraktivním režimu Označuje, že není možné získat text z obrazovky v neinteraktivním režimu
Nepodařilo se vytvořit modul OCR Označuje, že došlo k chybě při pokusu o vytvoření modulu OCR
Složka cesty k datům neexistuje Označuje, že zadaná složka pro data jazyka neexistuje
Vybraná jazyková sada Windows není v počítači nainstalovaná Ukazuje, že vybraná jazyková sada Windows není v počítači nainstalovaná
Modul OCR není aktivní Označuje, že modul OCR není aktivní