Poimijan luominen Microsoft Syntex
Koskee seuraavia: | Rakenteeton asiakirjan käsittely
Ennen kuin luot luokitusmallin, jolla automatisoit tiettyjen tiedostotyyppien tunnistuksen ja luokittelun, voit halutessasi halutessasi lisätä malliin poimintatoimintoja, jotta saat tarkempia tietoja näistä asiakirjoista. Saatat esimerkiksi haluta, että mallisi tunnistaa kaikki tiedostokirjastoosi lisätyt sopimuksen uusimisasiakirjat ja näyttää myös kunkin asiakirjan palvelun alkamispäivämäärän tiedostokirjaston sarakearvona.
Sinun on luotava poimintatoiminto kullekin poimittavan asiakirjan entiteetille. Tässä esimerkissä haluamme poimia palvelun alkamispäivän kullekin mallin tunnistamalle sopimuksen uusimisasiakirjalle . Haluamme nähdä kaikkien sopimuksen uusimisasiakirjojen tiedostokirjastossa näkymän, jossa on sarake, joka näyttää kunkin asiakirjan palvelun alkamispäivämääräarvon .
Huomautus
Voit luoda poimintatoiminnon käyttämällä samoja tiedostoja, jotka latasit aiemmin luokitustoiminnon harjoittamiseksi.
Nimeä poimintatoimintosi
Valitse mallin aloitussivun Luo ja harjoita poimintoja -ruudussa Harjoita poiminta.
Kirjoita Uusi entiteetin poiminta -näyttöön poimijan nimi Uusi poimijan nimi -kenttään. Anna esimerkiksi sen nimeksi Palvelun alkamispäivä , jos haluat poimia palvelun alkamispäivän kustakin sopimuksen uusimisasiakirjasta. Voit myös käyttää uudelleen aiemmin luotua saraketta (esimerkiksi hallittujen metatietojen saraketta).
Saraketyyppi on oletusarvoisesti Yksi tekstirivi. Jos haluat muuttaa saraketyyppiä, valitse Lisäasetukset>Saraketyyppi ja valitse sitten tyyppi, jota haluat käyttää.
Huomautus
Poimijoille, joiden saraketyyppi on Yksi tekstirivi, merkkien enimmäismäärä on 255. Kaikki valitsemasi merkit, jotka ylittävät rajoituksen, katkaistaan. Jos haluat valita enemmän kuin 255 merkkiä, valitse Useita tekstirivejä - saraketyyppi poimintatoimintoa luotaessa.
Oletusarvoisesti luodaan useita tekstisarakkeiden rivejä , joilla on enimmäismäärä lisättävälle tekstille. Tässä tapauksessa poimittu teksti saattaa vaikuttaa katkaistulta. Jos näin käy, voit poistaa rajoituksen sarakeasetuksella Salli rajoittamaton pituus tiedostokirjastoissa .
Kun olet valmis, valitse Luo.
Selitteen lisääminen
Seuraava vaihe on otsikoida entiteetti, jonka haluat poimia esimerkkikoulutustiedostoistasi.
Poimintatoiminnon luominen avaa poimintasivun. Tässä näet luettelon mallitiedostoistasi, ja luettelon ensimmäinen tiedosto näkyy katseluohjelmassa.
Valitse katseluohjelmasta tiedot, jotka haluat poimia tiedostoista. Jos esimerkiksi haluat poimia aloituspalvelun päivämäärän, korostat päivämääräarvon ensimmäisessä tiedostossa (maanantai, 14. lokakuuta 2022). ja valitse sitten Tallenna. Sinun pitäisi nähdä arvo, joka näytetään tiedostosta Otsikko-sarakkeen alla olevassa Nimetty esimerkit -luettelossa.
Valitse Seuraava tiedosto , jos haluat tallentaa tiedoston automaattisesti ja avata seuraavan tiedoston luettelon katseluohjelmassa. Tai valitse Tallenna ja valitse sitten toinen tiedosto Nimettyjä esimerkkejä -luettelosta.
Toista katseluohjelmassa vaiheet 1 ja 2 ja toista sitten, kunnes tallensit selitteen kaikissa viidessä tiedostossa.
Kun olet merkinnyt viisi tiedostoa, näkyviin tulee ilmoituspalkki, jossa kerrotaan, että voit siirtyä koulutukseen. Voit lisätä asiakirjoihin lisää tunnisteita tai siirtyä koulutukseen.
Etsi tiedostosta Etsi-toiminnolla
Etsi tiedostosta entiteetti, jonka haluat otsikoida , Käyttämällä Etsi-toimintoa .
Etsi-ominaisuudesta on hyötyä, jos etsit suuresta asiakirjasta tai jos asiakirjassa on useita entiteetin esiintymiä. Jos löydät useita esiintymiä, voit valita hakutuloksista tarvitsemasi esiintymän siirtyäksesi kyseiseen sijaintiin katseluohjelmassa sen nimeämiseksi.
Lisää selitys
Tässä esimerkissä luomme selityksen, joka antaa vihjeen itse entiteettimuodosta ja variaatioista, joita sillä voi olla malliasiakirjoissa. Esimerkiksi päivämääräarvo voi olla useissa eri muodoissa, kuten:
- 10/14/2022
- 14. lokakuuta 2022, klo
- Maanantai, lokakuu 14, 2022
Voit tunnistaa palvelun alkamispäivän luomalla malliselityksen.
- Valitse Selitys-osiossa Uusi ja kirjoita nimi (esimerkiksi Päivämäärä).
- Valitse Tyyppi-kohdassa Kuvio-luettelo.
- Anna Arvo-kohtaan päivämäärävariaatio sellaisina kuin ne näkyvät mallitiedostoissa. Jos sinulla on esimerkiksi päivämäärämuotoja, jotka näkyvät muodossa 0/00/0000, anna asiakirjoissa näkyvät variaatiot, kuten:
- 0/0/0000
- 0/00/0000
- 00/0/0000
- 00/00/0000
- Valitse Tallenna.
Huomautus
Lisätietoja selitystyypeistä on artikkelissa Selitystyypit.
Selityskirjaston käyttäminen
Jos haluat luoda selityksiä esimerkiksi päivämäärille, selityskirjastoa on helpompi käyttää kuin kirjoittaa kaikki variaatiot manuaalisesti. Selityskirjasto on joukko valmiiksi luotuja lauseiden ja kuvioiden selityksiä. Kirjasto yrittää tarjota yleisille lause- tai kuvioluetteloille kaikki muodot, kuten päivämäärät, puhelinnumerot, postinumerot ja monet muut.
Palvelun alkamispäivämäärä -mallissa on tehokkaampaa käyttää selityskirjaston valmiiksi luotua päivämäärän selitystä:
Valitse Selitys-osiossaUusi ja valitse sitten Selityskirjastosta.
Valitse selityskirjastosta Päivämäärä. Voit tarkastella kaikkia tunnistettavien päivämäärän variaatioita.
Valitse Lisää.
Selityskirjastonpäivämäärätiedot täyttävät kentät automaattisesti Luo selitys -sivulla. Valitse Tallenna.
Mallin harjoittaminen
Selityksen tallentaminen aloittaa harjoittamisen. Jos mallissasi on riittävästi tietoja tietojen poimimiseen otsikoiduista esimerkkitiedostoista, näet jokaisen tiedoston, jonka nimi on Match.
Jos selityksessä ei ole riittävästi tietoja poimittavan tiedon löytämiseksi, jokaisessa tiedostossa on ristiriita. Voit valita Ristiriitaista tiedostoa , jos haluat lisätietoja ristiriidan syystä.
Lisää toinen selitys
Usein ristiriita on osoitus siitä, että antamamme selitys ei antanut riittävästi tietoja palvelun alkamispäivämäärän poimimiseksi vastaamaan nimettyjä tiedostojamme. Sinun on ehkä muokattava sitä tai lisättävä toinen selitys.
Huomaa esimerkiksi, että tekstimerkkijonon aloituspalvelun päivämäärä edeltää aina todellista arvoa. Jotta voit tunnistaa palvelun alkamispäivän, sinun on luotava lausekkeen selitys.
Valitse Selitys-osiossa Uusi ja kirjoita sitten nimi (esimerkiksi etuliitemerkkijono).
Valitse Tyyppi-kohdassa Lause-luettelo.
Käytä arvona palvelun alkamispäivämäärää kohteelle .
Valitse Tallenna.
Harjoita malli uudelleen
Selityksen tallentaminen aloittaa harjoittamisen uudelleen käyttäen tällä kertaa esimerkin molempia selityksiä. Jos mallissasi on riittävästi tietoja tietojen poimimiseen otsikoiduista esimerkkitiedostoista, näet jokaisen Match-nimisen tiedoston.
Jos tunnistetuissa tiedostoissa on taas ristiriita , sinun on todennäköisesti luotava toinen selitys, jotta mallille annetaan lisätietoja tiedostotyypin tunnistamiseksi, tai harkitse muutosten tekemistä aiemmin luotuihin tiedostoihin.
Mallin testaaminen
Jos saat vastaavuus merkityille esimerkkitiedostoille, voit nyt testata malliasi jäljellä olevissa nimeämättömissä esimerkkitiedostoissa. Tämä vaihe on valinnainen, mutta hyödyllinen arvioitaessa mallin kuntoa tai valmiutta ennen sen käyttöä testaamalla se tiedostoissa, joita malli ei ole ennen nähnyt.
Valitse mallin aloitussivulta Testi-välilehti . Tämä suorittaa mallin merkitsemättömille mallitiedostoillesi.
Testitiedostot-luettelossa esimerkkitiedostot näytetään näyttämään, pystyykö malli poimimaan tarvitsemasi tiedot. Näiden tietojen avulla voit määrittää luokittelun tehokkuuden asiakirjojen tunnistamisessa.
Tarkenna purutinta edelleen
Jos sinulla on entiteettien kaksoiskappaleita ja haluat poimia vain yhden arvon tai tietyn määrän arvoja, voit määrittää säännön, joka määrittää, miten haluat sen käsitellä. Voit lisätä säännön poimittujen tietojen tarkennusta varten seuraavasti:
Valitse mallin aloitussivun Entiteetin poimintatoiminnot -osiosta poimintatoiminto, jonka haluat tarkentaa, ja valitse sitten Tarkenna poimitut tiedot.
Valitse Tarkenna poimitut tiedot -sivulla jokin seuraavista säännöistä:
- Säilytä vähintään yksi ensimmäisistä arvoista
- Säilytä vähintään yksi viime arvoista
- Poista arvojen kaksoiskappaleet
- Säilytä vähintään yksi ensimmäisistä riveistä
- Säilytä vähintään yksi viimeinen rivi
Anna käytettävien rivien tai arvojen määrä ja valitse sitten Tarkenna.
Jos haluat muokata sääntöä muuttamalla rivien tai arvojen määrää, valitse muokattava poimintatoiminto, valitse Tarkenna poimitut tiedot, muuta lukua ja valitse sitten Tallenna.
Kun testaat poimintatoimintoa, näet tarkennuksen Testitiedostot-luettelonTarkennustulos-sarakkeessa.
Jos haluat poistaa tarkennussäännön poimintatoiminnosta, valitse poimintatoiminto, josta haluat poistaa säännön, valitse Tarkenna poimitut tiedot ja valitse sitten Poista.
Tutustu myös seuraaviin ohjeartikkeleihin:
Hyödynnä termisäilön luokittelua poimintatoimintoa luotaessa