Microsoft Syntex selitystyypit
Koskee seuraavia: | Rakenteeton asiakirjan käsittely
Selitysten avulla voit määrittää tiedot, jotka haluat merkitä ja poimia jäsentämättömissä asiakirjankäsittelymalleissa Microsoft Syntex. Kun luot selityksen, sinun on valittava selitystyyppi. Tässä artikkelissa kerrotaan eri selitystyypeistä ja niiden käytöstä.
Seuraavat selitystyypit ovat käytettävissä:
Lauseluettelo: Luettelo sanoista, lauseista, numeroista tai muista merkeistä, joita voit käyttää asiakirjassa tai tietoja, joita poimit. Esimerkiksi tekstimerkkijono, joka viittaa lääkäriin , on kaikissa lääketieteellisissä Referral-asiakirjoissa, jotka tunnistat. Tai viittaavan lääkärin puhelinnumero kaikista lääketieteellisistä referral-asiakirjoista, jotka tunnistat.
Säännönmukainen lauseke: etsii tiettyjä merkkimalleja kuvioita vastaavalla merkintätavoilla. Voit esimerkiksi käyttää säännöllistä lauseketta löytääksesi kaikki sähköpostiosoitemallin esiintymät tiedostojoukosta.
Läheisyys: Kuvaa, miten läheisiä selitykset ovat toisilleen. Esimerkiksi katunumerolauseluettelo on juuri ennen katunimilauseluetteloa ilman tunnuksia välissä (lisätietoja tunnuksista on jäljempänä tässä artikkelissa). Lähestymistyypin käyttäminen edellyttää, että mallissasi on vähintään kaksi selitystä, tai asetus poistetaan käytöstä.
Lauseluettelo
Lauseluettelon selitystyyppiä käytetään yleensä asiakirjan tunnistamiseen ja luokittelemiseen mallisi kautta. Kuten viittaavan lääkärin selitteen esimerkissä on kuvattu, kyseessä on sanojen, lauseiden, numeroiden tai merkkien merkkijono, joka on johdonmukaisesti tunnistettamassasi asiakirjoissa.
Vaikka tämä ei ole vaatimus, voit saavuttaa paremman onnistumisen selitykselläsi, jos sieppaat lauseen, joka sijaitsee yhdenmukaisessa sijainnissa asiakirjassasi. Esimerkiksi viittaava lääkärin tunniste saattaa sijaita johdonmukaisesti asiakirjan ensimmäisessä kappaleessa. Voit myös käyttää Määritä, missä lausekkeet esiintyvät asiakirjan lisäasetuksissa -asetuksella valitaksesi tietyt alueet, joissa lause sijaitsee, varsinkin jos on mahdollista, että lause saattaa tapahtua useissa sijainneissa asiakirjassasi.
Jos kirjainkoko on luottamuksellisuusvaatimus tunnisteen tunnistamisessa, voit määrittää sen selitystäsi käyttämällä lauseluettelotyyppiä valitsemalla Vain tarkka kirjainkoko -valintaruudun.
Lausetyyppi on erityisen hyödyllinen, kun luot selityksen, joka tunnistaa ja poimii tietoja eri muodoissa, kuten päivämääriä, puhelinnumeroita ja luottokorttinumeroita. Esimerkiksi päivämäärä voidaan näyttää useissa eri muodoissa (1.1.2020, 1.1.2020, 1.1.2020, 1.1.2020, 01.1.2020 tai 1.1.2020). Lauseluettelon määrittäminen tehostaa selitystäsi tallentamalla mahdolliset variaatiot tiedoissa, joita yrität tunnistaa ja poimia.
Puhelinnumeroesimerkin kohdalla poimit kunkin viittaavan lääkärin puhelinnumeron kaikista lääketieteellisistä referral-asiakirjoista, jotka malli tunnistaa. Kun luot selityksen, kirjoita eri muodot, jotka puhelinnumero saattaa näyttää asiakirjassasi, jotta voit siepata mahdollisia variaatioita.
Valitse tässä esimerkissä Lisäasetukset-kohdassaMikä tahansa numero 0-9-valintaruudusta , jotta jokainen lauseluettelossa käytetty 0-arvo tunnistetaan numeroksi 0 - 9.
Vastaavasti, jos luot lauseluettelon, joka sisältää tekstimerkkejä, valitse Mikä tahansa kirjain a-z-valintaruudusta tunnistaaksesi jokaisen lauseluettelossa käytetyn a-merkin merkiksi väliltä "a" ja "z".
Jos esimerkiksi luot Päivämäärä-lauseluettelon ja haluat varmistaa, että tunnistetaan päivämäärämuoto, kuten 1.1.2020, sinun on:
- Lisää aaa 0, 0000 ja aaa 00, 0000 lauseluetteloosi.
- Varmista, että myös mikä tahansa kirjain a– z on valittuna.
Jos lauseluettelossasi on isosiointivaatimuksia, voit valita Vain tarkka kirjain isolla alkukirjainta -valintaruudun. Jos tarvitset päivämääräesimerkkiä varten kuukauden ensimmäisen kirjaimen isolla alkukirjaimella, sinun on tehtävä seuraavat:
- Lisää Aaa 0, 0000 ja Aaa 00, 0000 lauseluetteloosi.
- Varmista, että valittuna on myös Vain tarkka kirjain isolla alkukirjainta .
Huomautus
Sen sijaan, että luot lauseluettelon selityksen manuaalisesti, käytä selityskirjastoa lauseluettelomallien käyttämiseen yleisessä lauseluettelossa, kuten päivämäärä, puhelinnumero tai luottokorttinumero.
Säännöllinen lauseke
Säännönmukaisen lausekkeen selitystyypin avulla voit luoda kuvioita, jotka auttavat etsimään ja tunnistamaan tiettyjä tekstimerkkijonoja asiakirjoista. Säännöllisten lausekkeiden avulla voit nopeasti jäsentää suuria tekstimääriä:
- Etsi tiettyjä merkkimalleja.
- Varmista, että teksti vastaa ennalta määritettyä kaavaa (kuten sähköpostiosoitetta).
- Poimi, muokkaa, korvaa tai poista tekstin alimerkkijonot.
Säännönmukainen lauseketyyppi on erityisen hyödyllinen, kun luot selityksen, joka tunnistaa ja poimii tietoja samankaltaisissa muodoissa, kuten sähköpostiosoitteet, pankkitilinumerot tai URL-osoitteet. Esimerkiksi sähköpostiosoite, kuten megan@contoso.com, näkyy tietyssä mallissa ("megan" on ensimmäinen osa ja "com" on viimeinen osa).
Sähköpostiosoitteen säännöllinen lauseke on: [A-Za-z0-9._%-]+@[A-Za-z0-9.-]+.[ A-Za-z]{2,6}.
Tämä lauseke koostuu viidestä osasta, tässä järjestyksessä:
Seuraavien merkkien määrä:
a. Kirjaimet a – z
b. Luvut 0–9
c. Piste, alaviiva, prosentti tai viiva
@-merkki
Sama määrä merkkejä kuin sähköpostiosoitteen ensimmäinen osa
Kausi
2-6 kirjainta
Säännönmukaisen lausekkeen selitystyypin lisääminen:
Valitse Luo selitys -paneelinSelitystyyppi-kohdastaSäännöllinen lauseke.
Voit kirjoittaa lausekkeen Säännönmukainen lauseke -tekstiruutuun tai valita lisää säännönmukaisen lausekkeen mallista.
Kun lisäät säännönmukaisen lausekkeen mallin avulla, se lisää automaattisesti nimen ja säännöllisen lausekkeen tekstiruutuun. Jos valitset esimerkiksi Sähköpostiosoite-mallin , näyttöön tulee Luo selitys -paneeli.
Rajoitukset
Seuraavassa taulukossa näytetään sisäiset merkkiasetukset, jotka eivät tällä hetkellä ole käytettävissä säännönmukaisten lausekekuvioiden kanssa.
Vaihtoehto | Valtio | Nykyiset toiminnot |
---|---|---|
Kirjainkoko | Tällä hetkellä ei tueta. | Kaikki suoritetut vastaavuudet ovat kirjainkoolla merkitseviä. |
Viivan ankkurit | Tällä hetkellä ei tueta. | Merkkijonossa ei voi määrittää tiettyä sijaintia, jossa vastaavuus on tapahduttava. |
Läheisyys
Lähestymisselitystyyppi auttaa malliasi tunnistamaan tiedot määrittämällä, miten lähellä toinen tieto on. Mallissasi oletetaan esimerkiksi, että olet määrittänyt kaksi selitystä, jotka otsikoivat sekä asiakkaan katuosoitteen numeron että puhelinnumeron.
Huomaa, että asiakkaiden puhelinnumerot näkyvät aina katuosoitteen numeron edessä.
Alex Wilburn
555-555-5555
One Microsoft Way
Redmond, WA 98034
Käytä läheisyysselitystä määrittääksesi, kuinka kaukana puhelinnumeron selitys on, jotta voit paremmin tunnistaa katuosoitteen numeron asiakirjoissasi.
Huomautus
Säännönmukaisia lausekkeita ei tällä hetkellä voi käyttää lähestymisselitystyypissä.
Mitä tunnukset ovat?
Jos haluat käyttää läheisyyden selitystyyppiä, sinun on ymmärrettävä, mikä tunnus on. Tunnusten määrä on se, miten läheisyysselitys mittaa etäisyyttä selityksesta toiseen. Tunnus on kirjainten ja numeroiden jatkuva välilyönti (ei sisällä välilyöntejä tai välimerkkejä).
Seuraavassa taulukossa on esimerkkejä siitä, miten voit määrittää lausekkeen tunnusten määrän.
Fraasi | Tunnusten määrä | Kuvaus |
---|---|---|
Dog |
1 | Yksi sana ilman välimerkkejä tai välilyöntejä. |
RMT33W |
1 | Tietueen paikantimen numero. Se voi sisältää numeroita ja kirjaimia, mutta siinä ei ole välimerkkejä. |
425-555-5555 |
5 | Puhelinnumero. Jokainen välimerkki on yksittäinen tunnus, samoin kuin 425-555-5555 viisi tunnusta:425 - 555 - 5555 |
https://luis.ai |
7 | https : / / luis . ai |
Määritä läheisyyden selitystyyppi
Määritä esimerkiksi läheisyysasetus määrittämään tunnusten määrän alue puhelinnumeron selityksessä katuosoitteen numeron selityksestä. Huomaa, että vähimmäisalue on "0", koska puhelinnumeron ja katuosoitteen numeron välillä ei ole tunnuksia.
Jotkin malliasiakirjojen puhelinnumerot on kuitenkin liitetty (mobiililaitteeseen).
Nestor Wilke
111-111-1111 (matkapuhelin)
One Microsoft Way
Redmond, WA 98034
Mobiililaitteessa on kolme tunnusta:
Fraasi | Tunnusten määrä |
---|---|
( | 1 |
mobile | 2 |
) | 3 |
Määritä lähestymisasetuksen arvoksi 0 - 3.
Määritä, missä lausekkeet esiintyvät asiakirjassa
Kun luot selityksen, koko asiakirjasta etsitään oletusarvoisesti lause, jota yrität poimia. Voit kuitenkin käyttää Where these phrases - lisäasetusta, joka auttaa eristämään tietyn asiakirjan sijainnin, jossa lause esiintyy. Tästä asetuksesta on hyötyä tilanteissa, joissa samankaltaiset lauseen esiintymät saattavat näkyä jossain muualla asiakirjassa, ja haluat varmistaa, että oikea on valittuna.
Viitaten lääketieteellisen lähetteen asiakirjaesimerkkiimme, viittaava lääkäri mainitaan aina asiakirjan ensimmäisessä kappaleessa. Kun käytät Where these phrases occur - asetusta, tässä esimerkissä voit määrittää selityksesi tämän selitteen haulle vain asiakirjan alkuosassa tai missä tahansa muussa sijainnissa, jossa se voi tapahtua.
Voit valita seuraavat asetukset tälle asetukselle:
Tiedoston missä tahansa kohdassa: Koko asiakirjaa etsitään lausetta varten.
Tiedoston alku: Tiedostoa etsitään alusta lauseen sijaintiin.
Katseluohjelmassa voit manuaalisesti säätää valintaruudun sisältämään vaiheen sijainnin. Päättymissijainnin arvo päivittyy näyttämään valitun alueen sisältämien tunnusten määrän. Voit myös päivittää päättymissijainnin arvon valitun alueen säätämiseksi.
Tiedoston loppu: Tiedostoa etsitään lopusta lauseen sijaintiin.
Katseluohjelmassa voit manuaalisesti säätää valintaruudun sisältämään vaiheen sijainnin. Aloitussijainnin arvo päivittyy näyttämään valitun alueesi sisältämien tunnusten määrän. Voit päivittää aloitussijainnin arvon myös valitun alueen säätämiseksi.
Mukautettu alue: Asiakirjaa etsitään määritetyltä ajanjakson lausekkeen sijainnille.
Katseluohjelmassa voit manuaalisesti säätää valintaruudun sisältämään vaiheen sijainnin. Tätä asetusta varten sinun on valittava Aloitus - ja Lopetus-kohta . Nämä arvot edustavat tunnusten määrää asiakirjan alusta. Vaikka voit syöttää nämä arvot manuaalisesti, on helpompi säätää valintaruutua manuaalisesti katseluohjelmassa.
Huomioitavaa selitysten määrittämisessä
Kun harjoitat luokittelua, sinun on pidettävä mielessä muutamia asioita, jotka tuottavat ennustettavampia tuloksia:
Mitä enemmän tiedostoja harjoitat, sitä tarkempi luokitus on. Jos mahdollista, käytä useampia kuin viittä hyvää asiakirjaa ja käytä useampaa kuin yhtä huonoa asiakirjaa. Jos käsittelemäsi kirjastot sisältää useita eri tiedostotyyppejä, useat kustakin tyypistä johtavat ennustettaviin tuloksiin.
Asiakirjan nimeäminen on tärkeässä roolissa koulutusprosessissa. Niitä käytetään yhdessä selitysten kanssa mallin harjoittamiseksi. Saatat nähdä joitain poikkeamia harjoittaessasi luokittelua tiedostoilla, joissa ei ole paljon sisältöä. Selitys ei ehkä vastaa mitään asiakirjan sisällä, mutta koska se on merkitty "hyväksi" asiakirjaksi, saatat nähdä, että se vastaa toisiaan harjoittamisen aikana.
Kun luot selityksiä, se käyttää OR-logiikkaa yhdessä selitteen kanssa määrittääkseen, onko se vastine. AND-logiikkaa käyttävä säännöllinen lauseke voi olla ennustettavampi. Tässä on esimerkki säännönmukaista lauseketta, jota käytetään oikeissa asiakirjoissa harjoittaessasi niitä. Huomaa, että punaisella korostettu teksti on lause tai lauseet, joita etsit.
(?=.*network provider)(?=.*participating providers).*
Otsikot ja selitykset toimivat yhdessä, ja niitä käytetään mallin harjoittamisessa. Kyse ei ole sääntösarjasta, jonka kokoa voidaan poistaa ja määrittää tarkasti painotuksia tai ennusteita kullekin määritetylle muuttujalle. Mitä suurempi koulutusasiakirjojen variaatio lisää mallin tarkkuutta.