OCR-toiminnot
Power Automaten avulla käyttäjät voivat lukea, poimia ja hallita tietoja eri tiedostoista optisen tekstintunnistuksen (OCR) avulla.
Jos haluat luoda OCR-moduulin ja poimia tekstiä kuvista ja asiakirjoista, käytä Poimi teksti OCR:n avulla -toimintoa. Seuraavassa esimerkissä teksti poimitaan koko määritetystä kuvasta.
Kaikki OCR-toiminnot voivat luoda uuden OCR-moduulin muuttujan tai käyttää olemassa olevaa muuttujaa. Voit käyttää nykyisiä OCR-moduulin muuttujia missä tahansa OCR-ominaisuuksia tarjoavassa toiminnossa.
Power Automate tukee sekä Windows OCR -moduulia että Tesseract-moduulia. Voit määrittää valitun OCR-moduulin avaamalla asiaankuuluvan toiminnon OCR-moduulin asetukset. Käytettävissä olevat vaihtoehdot sisältävät kielen sekä kuvan leveyden ja korkeuden kertoimet.
Huomautus
- Kaikki käytettävissä olevat OCR-moduulit on asennettu valmiiksi Power Automateen, ja ne toimivat paikallisesti ilman yhteyttä pilvipalveluun. Saatat kuitenkin joutua lataamaan kielipaketteja tai datatiedostoja poimiaksesi tekstiä tietyillä kielillä.
- Kuvan kertoimet suurentavat kuvan kokoa niin, että hakeminen ja tekstin poimiminen on tehokasta. Jos asetuksen arvo on yli kolme, tulokset voivat olla virheellisiä.
Windows OCR -moduulin käyttäminen
Power Automaten oletusarvoinen OCR-moduuli on Windows OCR -moduuli. Tekstin poiminen Windows OCR -moduulilla edellyttää, että poimittavaa kieltä vastaava kielipaketti asennetaan.
Jos asiaankuuluvaa kielipakettia ei ole asennettu, Power Automaten näyttää virheen ja kehottaa asentamaan sen. Lisätietoja kielipakettien lataamisesta ja asentamisesta on kohdassa Windowsin kielipaketit.
Kun olet asentanut asianmukaisen kielipaketin, laajenna OCR-toiminnon OCR-moduulin asetukset ja valitse haluamasi kieli. Windows OCR -moduuli tukee 25 kieltä, mukaan lukien englanti, espanja, hollanti, italia, japani, kiina (yksinkertaistettu ja perinteinen), korea, kreikka, norja, portugali, puola, ranska, romania, ruotsi, saksa, serbia (kyrillinen ja latinalainen), slovakki, suomi, tanska, tšekki, turkki, unkari ja venäjä.
Tesseract OCR -moduulin käyttäminen
Huomautus
Jos haluat käyttää Tesseract OCR -moduulia, varmista, että koneen suoritin tukee AVX2-ohjejoukkoa.
Windows OCR -moduulin lisäksi Power Automate tukee Tesseract-moduulia. Tämä moduuli voi purkaa tekstiä viidellä kielellä ilman lisämäärityksiä: englanti, saksa, espanja, ranska ja italia.
Jos haluat poimia tekstiä edellä mainitun luettelon ulkopuolisella kielellä, ota OCR-toiminnon OCR-moduulin asetuksissa käyttöön Muiden kielten käyttö -vaihtoehto. Kun tämä vaihtoehto on käytössä, toiminto näyttää kaksi lisäparametria: Kielen lyhenne ja Kielen tietopolku.
Kielen lyhenne -kenttä osoittaa ytimelle, mitä kieltä OCR:n aikana etsitään. Kielen tietopolku -kenttä sisältää kielen datatiedostot (.traineddata), joita käytetään OCR-moduulin harjoittamiseen. Löydät kielidatatiedostot kaikista käytettävissä olevista kielistä tästä GitHub-säilöstä.
Tesseract-moduulin avulla voidaan poimia tekstiä myös monikielisistä asiakirjoista. Lisätietoja monikielisten asiakirjojen tekstin purkamisesta on kohdassa Monikielisten asiakirjojen tekstintunnistus.
Jos teksti on näytössä (OCR)
Merkitsee ehdollisen toimintolohkon alun OCR:n avulla sen mukaan, näkyykö tietty teksti näytössä vai ei.
Syöteparametrit
Argumentti | Valinnainen | Hyväksyy | Oletusarvo | Description |
---|---|---|---|---|
If text | – | On olemassa, Ei ole olemassa | On olemassa | Määrittää, tuleeko analysoitavan tekstin olemassa olo tarkistaa annetussa lähteessä |
OCR engine type | Ei | Windows OCR -moduuli, Tesseract-moduuli, OCR-moduulin muuttuja | OCR engine variable | Käytettävä OCR-moduulityyppi. Valitse valmiiksi määritetty OCR-moduuli tai määritä uusi moduuli. |
OCR engine variable | Ei | OCREngineObject | Ydin, jota käytetään OCR-toiminnossa | |
Text to find | Ei | Tekstin arvo | Määritetystä lähteestä haettava teksti | |
Is regular expression | – | Totuusarvo | Väärin | Määrittää, käytetäänkö säännöllistä lauseketta määritetyn tekstin etsimiseen |
Search for text on | – | Koko näyttö, Edustaikkuna | Koko näyttö | Määrittää, haetaanko määritettyä tekstiä koko näkyvissä olevasta näytöstä vai ainoastaan etualalla olevasta ikkunasta |
Search mode | – | Koko määritetty lähde, Vain tietty osa-alue, Osa-alue suhteessa kuvaan | Koko määritetty lähde | Määrittää, tutkitaanko koko näyttö (tai ikkuna) vai rajataanko siitä alialue |
Image(s) | Ei | Luettelokuvista | Kuvat, jotka määrittävät alialueen (joka liittyy kuvan vasempaan yläkulmaan), kun toimitettua tekstiä tutkitaan | |
X1 | Kyllä | Numeerinen arvo | Alialueen aloituksen X-koordinaatti, joka toimitetusta tekstistä tutkitaan | |
Tolerance | Kyllä | Numeerinen arvo | 10 | Määrittää, miten paljon haetut kuvat voivat poiketa alun perin valitusta kuvasta |
Y1 | Kyllä | Numeerinen arvo | Alialueen aloituksen Y-koordinaatti, joka toimitetusta tekstistä tutkitaan | |
X1 | Kyllä | Numeerinen arvo | Määritettyyn kuvaan liittyvän alueen aloituksen X-koordinaatti toimitetun tekstin tutkimista varten | |
X2 | Kyllä | Numeerinen arvo | Alialueen lopetuksen X-koordinaatti, joka toimitetusta tekstistä tutkitaan | |
Y1 | Kyllä | Numeerinen arvo | Määritettyyn kuvaan liittyvän alueen aloituksen Y-koordinaatti toimitetun tekstin tutkimista varten | |
Y2 | Kyllä | Numeerinen arvo | Alialueen lopetuksen Y-koordinaatti, joka toimitetusta tekstistä tutkitaan | |
X2 | Kyllä | Numeerinen arvo | Määritettyyn kuvaan liittyvän alueen lopetuksen X-koordinaatti toimitetun tekstin tutkimista varten | |
Y2 | Kyllä | Numeerinen arvo | Määritettyyn kuvaan liittyvän alueen lopetuksen Y-koordinaatti toimitetun tekstin tutkimista varten | |
Windows OCR -kieli | – | kiina (yksinkertaistettu), kiina (perinteinen), tšekki, tanska, hollanti, englanti, suomi, ranska, saksa, kreikka, unkari, italia, japani, korea, norja, puola, portugali, romania, venäjä, serbia (kyrillinen), serbia (latinalainen), slovakki, espanja, ruotsi, turkki | Englanti | Sen tekstin kieli, jonka Windows OCR -moduuli havaitsee |
Use other language | – | Totuusarvo | Epätosi | Määrittää, käytetäänkö kieltä, jota ei ole Tesseract-kieli-kentässä |
Tesseract language | – | englanti, saksa, espanja, ranska, italia | Englanti | Tekstin kieli, jonka Tesseract-moduuli tunnistaa |
Language abbreviation | Ei | Tekstin arvo | Käytettävän kielen Tesseract-lyhenne. Jos tietona on esimerkiksi eng.traineddata, parametriksi määritetään eng | |
Kielen tietojen polku | Ei | Tekstiarvo | Sen kansion polku, joka sisältää määritetyn kielen Tesseract-tiedot | |
Image width multiplier | Ei | Numeerinen arvo | 1 | Kuvan leveyden kertoja |
Kuvan korkeuden kertoja | Ei | Numeerinen arvo | 1 | Kuvan korkeuden kertoja |
Kuvan vastaavuuksien algoritmi | – | Perusasetukset, lisäasetukset | Perusasetukset | Mitä kuva-algoritmia käytetään haettaessa kuvaa |
Huomautus
- Power Automaten säännöllinen lausekeydin on .NET. Lisätietoja säännöllisistä lausekkeista on kohdassa Säännöllisen lausekkeen kieli - pikaopas.
- OCR-moduulin muuttuja -asetus on poistumassa.
Tuotetut muuttujat
Argumentti | Type | Description |
---|---|---|
LocationOfTextFoundX | Numeerinen arvo | Sen pisteen X-koordinaatti, jossa teksti näkyy näytössä. Jos haku suoritetaan edustaikkunassa, palautettu koordinaatti on suhteessa ikkunan vasempaan yläkulmaan |
LocationOfTextFoundY | Numeerinen arvo | Sen pisteen X-koordinaatti, jossa teksti näkyy näytössä. Jos haku suoritetaan edustaikkunassa, palautettu koordinaatti on suhteessa ikkunan vasempaan yläkulmaan |
Poikkeukset
Poikkeus | Description |
---|---|
Tekstiä ei voi tarkistaa, jos se on muussa kuin interaktiivisessa tilassa | Osoittaa, että tekstiä ei voi tarkistaa näytössä, jos se on muussa kuin interaktiivisessa tilassa |
Virheelliset alialueen koordinaatit | Osoittaa, että määritetyt alialueen koordinaatit ovat virheellisiä |
Tekstin analysoiminen OCR:n avulla epäonnistui | Osoittaa, että analysoitaessa tekstiä OCR:n avulla tapahtui virhe |
OCR-moduulin luominen epäonnistui | Osoittaa, että OCR-moduulin luomisen yhteydessä tapahtui virhe |
Tietojen polun kansiota ei ole | Osoittaa, että kielen tiedoille määritettyä kansiota ei ole |
Valittua Windows-kielipakettia ei ole asennettu koneeseen | Ilmaisee, että valittua Windows-kielipakettia ei ole asennettu koneeseen |
OCR-moduuli ei ole käytössä | Osoittaa, että OCR-moduuli ei ole käytössä |
Odota, että teksti näkyy näytössä (OCR)
Odota, kunnes tietty teksti ilmestyy näyttöön, edustan ikkunaan, näytön liittyvään kuvaan tai edustan ikkunaan OCR:n avulla tai poistuu näistä kohdista.
Syöteparametrit
Argumentti | Valinnainen | Hyväksyy | Oletusarvo | Description |
---|---|---|---|---|
Wait for text to | – | Tulee näkyviin, Katoaa | Tulee näkyviin | Määrittää, odotetaanko tekstin tulevan näkyviin tai poistuvan näkyvistä |
OCR engine type | Ei | Windows OCR -moduuli, Tesseract-moduuli, OCR-moduulin muuttuja | OCR engine variable | Käytettävä OCR-moduulityyppi. Valitse valmiiksi määritetty OCR-moduuli tai määritä uusi moduuli. |
OCR engine variable | Ei | OCREngineObject | Ydin, jota käytetään OCR-toiminnossa | |
Text to find | Ei | Tekstin arvo | Määritetystä lähteestä haettava teksti | |
Is regular expression | – | Totuusarvo | Väärin | Määrittää, käytetäänkö säännöllistä lauseketta määritetyn tekstin etsimiseen |
Search for text on | – | Koko näyttö, Edustaikkuna | Koko näyttö | Määrittää, haetaanko määritettyä tekstiä koko näkyvissä olevasta näytöstä vai ainoastaan etualalla olevasta ikkunasta |
Search mode | – | Koko määritetty lähde, Vain tietty osa-alue, Osa-alue suhteessa kuvaan | Koko määritetty lähde | Määrittää, tutkitaanko koko näyttö (tai ikkuna) vai rajataanko siitä alialue |
Image(s) | Ei | Luettelokuvista | Kuvat, jotka määrittävät alialueen (joka liittyy kuvan vasempaan yläkulmaan), kun toimitettua tekstiä tutkitaan | |
X1 | Kyllä | Numeerinen arvo | Alialueen aloituksen X-koordinaatti, joka toimitetusta tekstistä tutkitaan | |
Tolerance | Kyllä | Numeerinen arvo | 10 | Määrittää, miten paljon haetut kuvat voivat poiketa alun perin valitusta kuvasta |
Y1 | Kyllä | Numeerinen arvo | Alialueen aloituksen Y-koordinaatti, joka toimitetusta tekstistä tutkitaan | |
X1 | Kyllä | Numeerinen arvo | Määritettyyn kuvaan liittyvän alueen aloituksen X-koordinaatti toimitetun tekstin tutkimista varten | |
X2 | Kyllä | Numeerinen arvo | Alialueen lopetuksen X-koordinaatti, joka toimitetusta tekstistä tutkitaan | |
Y1 | Kyllä | Numeerinen arvo | Määritettyyn kuvaan liittyvän alueen aloituksen Y-koordinaatti toimitetun tekstin tutkimista varten | |
Y2 | Kyllä | Numeerinen arvo | Alialueen lopetuksen Y-koordinaatti, joka toimitetusta tekstistä tutkitaan | |
X2 | Kyllä | Numeerinen arvo | Määritettyyn kuvaan liittyvän alueen lopetuksen X-koordinaatti toimitetun tekstin tutkimista varten | |
Y2 | Kyllä | Numeerinen arvo | Määritettyyn kuvaan liittyvän alueen lopetuksen Y-koordinaatti toimitetun tekstin tutkimista varten | |
Windows OCR -kieli | – | kiina (yksinkertaistettu), kiina (perinteinen), tšekki, tanska, hollanti, englanti, suomi, ranska, saksa, kreikka, unkari, italia, japani, korea, norja, puola, portugali, romania, venäjä, serbia (kyrillinen), serbia (latinalainen), slovakki, espanja, ruotsi, turkki | Englanti | Sen tekstin kieli, jonka Windows OCR -moduuli havaitsee |
Use other language | – | Totuusarvo | Epätosi | Määrittää, käytetäänkö kieltä, jota ei ole Tesseract-kieli-kentässä |
Tesseract language | – | englanti, saksa, espanja, ranska, italia | Englanti | Tekstin kieli, jonka Tesseract-moduuli tunnistaa |
Language abbreviation | Ei | Tekstin arvo | Käytettävän kielen Tesseract-lyhenne. Jos tietona on esimerkiksi eng.traineddata, parametriksi määritetään eng | |
Kielen tietojen polku | Ei | Tekstiarvo | Sen kansion polku, joka sisältää määritetyn kielen Tesseract-tiedot | |
Image width multiplier | Ei | Numeerinen arvo | 1 | Kuvan leveyden kertoja |
Kuvan korkeuden kertoja | Ei | Numeerinen arvo | 1 | Kuvan korkeuden kertoja |
Kuvan vastaavuuksien algoritmi | – | Perusasetukset, lisäasetukset | Perusasetukset | Mitä kuva-algoritmia käytetään haettaessa kuvaa |
Aikakatkaisu epäonnistui -virhe | – | Totuusarvo | Epätosi | Määritä, haluatko toiminnon odottavan loputtomiin vai epäonnistuvan määritetyn ajanjakson kuluttua |
Huomautus
- Power Automaten säännöllinen lausekeydin on .NET. Lisätietoja säännöllisistä lausekkeista on kohdassa Säännöllisen lausekkeen kieli - pikaopas.
- OCR-moduulin muuttuja -asetus on poistumassa.
Tuotetut muuttujat
Argumentti | Type | Description |
---|---|---|
LocationOfTextFoundX | Numeerinen arvo | Sen pisteen X-koordinaatti, jossa teksti näkyy näytössä. Jos haku suoritetaan edustaikkunassa, palautettu koordinaatti on suhteessa ikkunan vasempaan yläkulmaan |
LocationOfTextFoundY | Numeerinen arvo | Sen pisteen X-koordinaatti, jossa teksti näkyy näytössä. Jos haku suoritetaan edustaikkunassa, palautettu koordinaatti on suhteessa ikkunan vasempaan yläkulmaan |
Poikkeukset
Poikkeus | Description |
---|---|
Tekstiä ei voi tarkistaa, jos se on muussa kuin interaktiivisessa tilassa | Osoittaa, että tekstiä ei voi tarkistaa näytössä, jos se on muussa kuin interaktiivisessa tilassa |
Virheelliset alialueen koordinaatit | Osoittaa, että määritetyt alialueen koordinaatit ovat virheellisiä |
Tekstin analysoiminen OCR:n avulla epäonnistui | Osoittaa, että analysoitaessa tekstiä OCR:n avulla tapahtui virhe |
OCR-moduulin luominen epäonnistui | Osoittaa, että OCR-moduulin luomisen yhteydessä tapahtui virhe |
Tietojen polun kansiota ei ole | Osoittaa, että kielen tiedoille määritettyä kansiota ei ole |
Valittua Windows-kielipakettia ei ole asennettu koneeseen | Ilmaisee, että valittua Windows-kielipakettia ei ole asennettu koneeseen |
OCR-moduuli ei ole käytössä | Osoittaa, että OCR-moduuli ei ole käytössä |
Aikakatkaisuvirhe | Osoittaa, että toiminto epäonnistui tietyn ajanjakson jälkeen |
Poimi teksti OCR:n avulla
Poimi määritetyn lähteen teksti käyttämällä annettua OCR-moduulia.
Syöteparametrit
Argumentti | Valinnainen | Hyväksyy | Oletusarvo | Description |
---|---|---|---|---|
OCR engine | Ei | Windows OCR -moduuli, Tesseract-moduuli, OCR-moduulin muuttuja | OCR engine variable | Käytettävä OCR-moduulityyppi. Valitse valmiiksi määritetty OCR-moduuli tai määritä uusi moduuli |
OCR-ytimen muuttuja | Ei | OCREngineObject | Ydin, jota käytetään OCR-toiminnossa | |
OCR source | – | Näyttö, Edustaikkuna, Kuva levyllä | Näyttö | Sen kuvan lähde, jolle OCR-toiminto suoritetaan |
Image file path | Ei | Tiedosto | Sen kuvan polku, jolle OCR-toiminto suoritetaan | |
Search mode | – | Koko määritetty lähde, Vain tietty osa-alue, Osa-alue suhteessa kuvaan | Koko määritetty lähde | OCR-toiminnon valittu tila |
Image | Ei | Luettelokuvista | Kuva, jota käytetään määritettyyn kuvaan liittyvän alialueen tutkimisen rajaamisessa | |
Tolerance | Kyllä | Numeerinen arvo | 10 | Määrittää, miten paljon kuva voi poiketa alun perin valitusta kuvasta |
X1 | Kyllä | Numeerinen arvo | Alialueen aloituksen X-koordinaatti, joka rajaa tutkimista | |
X2 | Kyllä | Numeerinen arvo | Alialueen lopetuksen X-koordinaatti, joka rajaa tutkimista | |
Y1 | Kyllä | Numeerinen arvo | Alialueen aloituksen Y-koordinaatti, joka rajaa tutkimista | |
Y2 | Kyllä | Numeerinen arvo | Alialueen lopetuksen Y-koordinaatti, joka rajaa tutkimista | |
Windows OCR -kieli | – | kiina (yksinkertaistettu), kiina (perinteinen), tšekki, tanska, hollanti, englanti, suomi, ranska, saksa, kreikka, unkari, italia, japani, korea, norja, puola, portugali, romania, venäjä, serbia (kyrillinen), serbia (latinalainen), slovakki, espanja, ruotsi, turkki | Englanti | Sen tekstin kieli, jonka Windows OCR -moduuli havaitsee |
Use other language | – | Totuusarvo | Epätosi | Määrittää, käytetäänkö kieltä, jota ei ole Tesseract-kieli-kentässä |
Tesseract language | – | englanti, saksa, espanja, ranska, italia | Englanti | Tekstin kieli, jonka Tesseract-moduuli tunnistaa |
Language abbreviation | Ei | Tekstin arvo | Käytettävän kielen Tesseract-lyhenne. Jos tietona on esimerkiksi eng.traineddata, parametriksi määritetään eng | |
Kielen tietojen polku | Ei | Tekstiarvo | Sen kansion polku, joka sisältää määritetyn kielen Tesseract-tiedot | |
Image width multiplier | Ei | Numeerinen arvo | 1 | Kuvan leveyden kertoja |
Image height multiplier | Ei | Numeerinen arvo | 1 | Kuvan korkeuden kertoja |
Odota, että kuva tulee näkyviin | – | Totuusarvo | Tosi | Määrittää, odotetaanko kuvan näkyvän näytössä tai edustan ikkunassa |
Aikakatkaisu | Ei | Numeerinen arvo | 5 | Määrittää ajan, jonka ajan odotetaan toiminnon valmistumista ennen toiminnon epäonnistumista |
Kuvan vastaavuuksien algoritmi | – | Perusasetukset, lisäasetukset | Perusasetukset | Mitä kuva-algoritmia käytetään haettaessa kuvaa |
Huomautus
OCR-moduulin muuttuja -asetus on poistumassa.
Tuotetut muuttujat
Argumentti | Type | Description |
---|---|---|
OcrText | Tekstiarvo | Tekstin poiminnan jälkeinen tulos |
Poikkeukset
Poikkeus | Kuvaus |
---|---|
Tekstin poimiminen OCR:n avulla epäonnistui | Osoittaa, että poimittaessa tekstiä OCR:n avulla annetusta lähteestä tapahtui virhe |
Kuvatiedostoa ei löydy | Osoittaa, että annetun polun sijainnissa ei ole tiedostoa |
Maamerkin kuvaa ei löydy | Osoittaa, että maamerkin kuvaa ei ole |
Tekstiä ei voi hakea näytöstä, jos se on muussa kuin interaktiivisessa tilassa | Osoittaa, että tekstiä ei voi hakea näytöstä, jos se on muussa kuin interaktiivisessa tilassa |
OCR-moduulin luominen epäonnistui | Osoittaa, että OCR-moduulin luomisen yhteydessä tapahtui virhe |
Tietojen polun kansiota ei ole | Osoittaa, että kielen tiedoille määritettyä kansiota ei ole |
Valittua Windows-kielipakettia ei ole asennettu koneeseen | Ilmaisee, että valittua Windows-kielipakettia ei ole asennettu koneeseen |
OCR-moduuli ei ole käytössä | Osoittaa, että OCR-moduuli ei ole käytössä |