Del via


Opprette en uttrekking for dokumentbehandling i SharePoint

Gjelder for: ✓ Ustrukturert dokumentbehandling



Før eller etter at du har opprettet en klassifiermodell for å automatisere identifikasjon og klassifisering av bestemte dokumenttyper, kan du velge å legge til uttrekkinger i modellen for å hente ut spesifikk informasjon fra disse dokumentene. Du vil for eksempel kanskje at modellen ikke bare skal identifisere alle kontraktfornyelsesdokumenter som er lagt til i dokumentbiblioteket, men også for å vise startdatoen for tjenesten for hvert dokument som en kolonneverdi i dokumentbiblioteket.

Du må opprette en uttrekking for hver enhet i dokumentet du vil trekke ut. I vårt eksempel ønsker vi å trekke ut servicestartdatoen for hvert kontraktfornyelsesdokument som identifiseres av modellen. Vi ønsker å kunne se en visning i dokumentbiblioteket for alle dokumenter for kontraktfornyelse , med en kolonne som viser verdien for servicestartdatoen for hvert dokument.

Obs!

Hvis du vil opprette en uttrekking, bruker du de samme filene du lastet opp tidligere for å lære opp klassifieren.

Gi navn til uttrekkingen

  1. Velg Togavtrekker fra startsiden for modellen i flisen Opprett og kalibrer uttrekkinger.

  2. Skriv inn navnet på uttrekkeren i nytt uttrekkingsnavn-feltet på skjermen For nytt enhetsuttrekker. Gi den for eksempel navnet Startdato for tjeneste hvis du vil trekke ut startdatoen for tjenesten fra hvert kontraktfornyelsesdokument. Du kan også velge å bruke en tidligere opprettet kolonne på nytt (for eksempel en kolonne for forvaltede metadata).

    Kolonnetypen er som standard en enkelt linje med tekst. Hvis du vil endre kolonnetypen, velger duKolonnetype for avanserte innstillinger>, og deretter velger du typen du vil bruke.

    Skjermbilde av delen Avanserte innstillinger i panelet for uttrekking av ny enhet som viser alternativet Kolonnetype.

    Obs!

    For uttrekkere med kolonnetypen Enkel linje med tekst er maksimumsgrensen 255. Alle tegn du velger som overskrider grensen, avkortes. Hvis du vil velge mer enn 255 tegn, velger du kolonnetypen Flere linjer med tekst når du oppretter uttrekkingen.

    Som standard opprettes flere linjer med tekstkolonner med en grense for hvor mye tekst som kan legges til. I dette tilfellet kan utpakket tekst vises avkortet. Hvis dette skjer, kan kolonneinnstillingen Tillat ubegrenset lengde i dokumentbiblioteker brukes til å fjerne grensen.

  3. Når du er ferdig, velger du Opprett.

Legge til en etikett

Det neste trinnet er å merke enheten du vil trekke ut i eksempelopplæringsfilene.

Når du oppretter uttrekkeren, åpnes uttrekkingssiden. Her ser du en liste over eksempelfilene, der den første filen i listen vises i visningsprogrammet.

  1. Velg dataene du vil trekke ut fra filene, fra visningsprogrammet. Hvis du for eksempel vil trekke ut starttjenestedatoen, uthever du datoverdien i den første filen (mandag 14. oktober 2022). og velger deretter Lagre. Du skal kunne se verdien som vises fra filen i listen over merkede eksempler, under Etikett-kolonnen .

  2. Velg Neste fil for automatisk lagring, og åpne den neste filen i listen i visningsprogrammet. Du kan også velge Lagre og deretter velge en annen fil fra listen over merkede eksempler .

  3. Gjenta trinn 1 og 2 i visningsprogrammet, og gjenta deretter til du lagret etiketten i alle de fem filene.

    Avanserte innstillinger.

Når du har merket fem filer, vises et varslingsbanner som informerer deg om å gå over til opplæring. Du kan velge å merke flere dokumenter flere dokumenter eller gå videre til opplæring.

Bruke Finn til å søke i filen

Du kan bruke Finn-funksjonen til å søke etter en enhet i dokumentet som du vil merke.

Søk i filen.

Finn-funksjonen er nyttig hvis du søker i et stort dokument, eller hvis det finnes flere forekomster av enheten i dokumentet. Hvis du finner flere forekomster, kan du velge den du trenger i søkeresultatene for å gå til denne plasseringen i visningsprogrammet for å merke den.

Legge til en forklaring

Vi skal for eksempel opprette en forklaring som gir et hint om selve enhetsformatet og variasjoner det kan ha i eksempeldokumentene. En datoverdi kan for eksempel være i flere forskjellige formater, for eksempel:

  • 10/14/2022
  • 14. oktober 2022 kl.
  • Mandag, oktober 14, 2022

Du kan opprette en mønsterforklaring for å identifisere startdatoen for tjenesten.

  1. Velg Ny i Forklaring-delen, og skriv inn et navn (for eksempel Dato).
  2. Velg Mønsterliste for Type.
  3. Angi datovariasjonen slik de vises i eksempelfilene for Verdi. Hvis du for eksempel har datoformater som vises som 00.00.0000, angir du alle variasjoner som vises i dokumentene, for eksempel:
    • 0/0/0000
    • 0/00/0000
    • 00/0/0000
    • 00/00/0000
  4. Velg Lagre.

Obs!

Hvis du vil ha mer informasjon om forklaringstyper, kan du se Forklaringstyper.

Bruk forklaringsbiblioteket

Hvis du vil opprette forklaringer for elementer som datoer, er det enklere å bruke forklaringsbiblioteket enn å angi alle variasjoner manuelt. Forklaringsbiblioteket er et sett med forhåndsbygde uttrykks- og mønsterforklaringer. Biblioteket prøver å angi alle formater for vanlige uttrykks- eller mønsterlister, for eksempel datoer, telefonnumre, postnumre og mange andre.

For eksempelet på startdato for tjenesten er det mer effektivt å bruke den forhåndsbygde forklaringen for Dato i forklaringsbiblioteket:

  1. Velg Ny i Forklaring-delen, og velg deretter Fra forklaringsbibliotek.

  2. Velg Dato fra forklaringsbiblioteket. Du kan vise alle variasjoner av dato som gjenkjennes.

  3. Velg Legg til.

    Forklaringsbibliotek.

  4. Datoinformasjonen fra forklaringsbiblioteket fyller automatisk ut feltene på siden Opprett en forklaring. Velg Lagre.

    Daddel.

Kalibrer modellen

Når du lagrer forklaringen, starter opplæringen. Hvis modellen har nok informasjon til å trekke ut dataene fra de merkede eksempelfilene, ser du hver fil merket med Match.

Fyrstikk.

Hvis forklaringen ikke har nok informasjon til å finne dataene du vil trekke ut, vil hver fil bli merket med Manglende samsvar. Du kan velge filer som ikke samsvarer , for å se mer informasjon om hvorfor det oppstod en manglende samsvar.

Legg til en annen forklaring

Manglende samsvar er ofte en indikasjon på at forklaringen vi oppgav, ikke ga nok informasjon til å trekke ut verdien for startdatoen for tjenesten for å samsvare med de merkede filene. Du må kanskje redigere den eller legge til en annen forklaring.

Legg for eksempel merke til at tekststrengen Start Service-dato alltid kommer foran den faktiske verdien. Du må opprette en uttrykksforklaring for å identifisere startdatoen for tjenesten.

  1. Velg Ny i Forklaring-delen, og skriv deretter inn et navn (for eksempel prefiksstreng).

  2. Velg Frase-listen for Typen.

  3. Bruk startdatoen for tjenesten som verdi.

  4. Velg Lagre.

    Prefiksstreng.

Kalibrer modellen på nytt

Lagring av forklaringen starter opplæringen på nytt, denne gangen ved hjelp av begge forklaringene i eksemplet. Hvis modellen har nok informasjon til å trekke ut dataene fra de merkede eksempelfilene, ser du hver fil merket med Samsvar.

Hvis du igjen får en manglende samsvar på de merkede filene, må du sannsynligvis opprette en annen forklaring for å gi modellen mer informasjon for å identifisere dokumenttypen, eller vurdere å gjøre endringer i de eksisterende filene.

Test modellen

Hvis du mottar et treff på de merkede eksempelfilene, kan du nå teste modellen på de gjenværende umerkede eksempelfilene. Dette trinnet er valgfritt, men nyttig for å evaluere «formen» eller beredskapen til modellen før du bruker den, ved å teste den på filer modellen ikke har sett før.

  1. Velg Test-fanen på startsiden for modellen. Dette vil kjøre modellen på de umerkede eksempelfilene.

  2. I listen over testfiler vises eksempelfilene for å vise om modellen kan trekke ut informasjonen du trenger. Bruk denne informasjonen til å bestemme effektiviteten til klassifisereren for å identifisere dokumentene dine.

    Test filene dine.

Finjustere en uttrekker ytterligere

Hvis du har dupliserte enheter og bare vil trekke ut én verdi eller et bestemt antall verdier, kan du angi en regel for å angi hvordan du vil at den skal behandles. Følg disse trinnene for å legge til en regel for å begrense utpakket informasjon:

  1. Velg uttrekkingen du vil begrense, i enhetsutpakkingsdelen på modellens hjemmeside, og velg deretter Begrens utpakket informasjon.

    Skjermbilde av delen enhetsutpakking som viser alternativet Begrens utpakket informasjon uthevet.

  2. Velg én av følgende regler på siden Begrens utpakket informasjon :

    • Beholde én eller flere av de første verdiene
    • Beholde én eller flere av de siste verdiene
    • Fjern dupliserte verdier
    • Beholde én eller flere av de første linjene
    • Beholde én eller flere av de siste linjene

    Skjermbilde av siden Begrens utpakket informasjon som viser regelalternativene.

  3. Skriv inn antall linjer eller verdier du vil bruke, og velg deretter Begrens.

  4. Hvis du vil redigere en regel ved å endre antall linjer eller verdier, velger du uttrekkingen du vil redigere, velger Begrens utpakket informasjon, endrer nummeret og velger deretter Lagre.

  5. Når du tester uttrekkingen, vil du kunne se forbedringen i presiseringsresultatkolonnen i Listen over testfiler .

    Testfiler-listen som viser kolonnen for presiseringsresultat.

  6. Hvis du vil slette en presiseringsregel på en uttrekker, velger du uttrekkingen du vil fjerne regelen fra, velger Begrens utpakket informasjon og velger deretter Slett.

Se også

Opprette en klassifier

Forklaringstyper

Dra nytte av taksonomi for termlager når du oppretter en ekstraktør

Syntex-tilgjengelighetsmodus