Kognitiv skicklighet för dokumentextrahering

Artikel
09/01/2024

Kunskapen för dokumentextrahering extraherar innehåll från en fil i berikande pipelinen. På så sätt kan du dra nytta av det dokumentextraheringssteg som normalt sker före körningen av kunskapsuppsättningen med filer som kan genereras av andra kunskaper.

Kommentar

Den här kompetensen är inte bunden till Azure AI-tjänster och har inga nyckelkrav för Azure AI-tjänster. Den här färdigheten extraherar text och bilder. Extrahering av text är kostnadsfri. Bildextrahering mäts av Azure AI Search. I en kostnadsfri söktjänst absorberas kostnaden för 20 transaktioner per indexerare per dag så att du kan slutföra snabbstarter, självstudier och små projekt utan kostnad. För Basic, Standard och senare är bildextrahering fakturerbar.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Dokumentformat som stöds

DocumentExtractionSkill kan extrahera text från följande dokumentformat:

CSV (se Indexering av CSV-blobar)
EML
EPUB
GZ
HTML
JSON (se Indexering av JSON-blobar)
KML (XML för geografiska representationer)
Microsoft Office-format: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-post), XML (både 2003 och 2006 WORD XML)
Öppna dokumentformat: ODT, ODS, ODP
PDF
Oformaterade textfiler (se även Indexering av oformaterad text)
RTF
XML
ZIP

Kompetensparametrar

Parametrar är skiftlägeskänsliga.

Indata Tillåtna värden beskrivning

Indata	Tillåtna värden	beskrivning
`parsingMode`	`default` `text` `json`	Ange till `default` för extrahering av dokument från filer som inte är ren text eller json. För källfiler som innehåller markering (till exempel PDF, HTML, RTF och Microsoft Office-filer) använder du standardvärdet för att extrahera bara texten, minus valfritt markeringsspråk eller taggar. Om `parsingMode` inte uttryckligen definieras anges det till `default`. Ange till `text` om källfilerna är TXT. Det här parsningsläget förbättrar prestanda för oformaterade textfiler. Om filer innehåller markering bevarar det här läget taggarna i de slutliga utdata. Ange till för att `json` extrahera strukturerat innehåll från json-filer.
`dataToExtract`	`contentAndMetadata` `allMetadata`	Ange till för att `contentAndMetadata` extrahera alla metadata och textinnehåll från varje fil. Om `dataToExtract` inte uttryckligen definieras anges det till `contentAndMetadata`. Ange till för att `allMetadata` endast extrahera metadataegenskaperna för innehållstypen (till exempel metadata som är unika för bara .png filer).
`configuration`	Se nedan.	En ordlista med valfria parametrar som justerar hur dokumentextraheringen utförs. Se tabellen nedan för beskrivningar av konfigurationsegenskaper som stöds.

parsingMode

default
text
json

Ange till default för extrahering av dokument från filer som inte är ren text eller json. För källfiler som innehåller markering (till exempel PDF, HTML, RTF och Microsoft Office-filer) använder du standardvärdet för att extrahera bara texten, minus valfritt markeringsspråk eller taggar. Om parsingMode inte uttryckligen definieras anges det till default.

Ange till text om källfilerna är TXT. Det här parsningsläget förbättrar prestanda för oformaterade textfiler. Om filer innehåller markering bevarar det här läget taggarna i de slutliga utdata.

Ange till för att json extrahera strukturerat innehåll från json-filer.

dataToExtract

contentAndMetadata
allMetadata

Ange till för att contentAndMetadata extrahera alla metadata och textinnehåll från varje fil. Om dataToExtract inte uttryckligen definieras anges det till contentAndMetadata.

Ange till för att allMetadata endast extrahera metadataegenskaperna för innehållstypen (till exempel metadata som är unika för bara .png filer).

configuration Se nedan. En ordlista med valfria parametrar som justerar hur dokumentextraheringen utförs. Se tabellen nedan för beskrivningar av konfigurationsegenskaper som stöds.

Konfigurationsparameter Tillåtna värden beskrivning

Konfigurationsparameter	Tillåtna värden	beskrivning
`imageAction`	`none` `generateNormalizedImages` `generateNormalizedImagePerPage`	Ange till för att `none` ignorera inbäddade bilder eller bildfiler i datauppsättningen, eller om källdata inte innehåller bildfiler. Det här är standardinställningen. För OCR och bildanalys anger du till att `generateNormalizedImages` kunskapen ska skapa en matris med normaliserade bilder som en del av dokumentsprickor. Den här åtgärden kräver att `parsingMode` den är inställd på `default` och `dataToExtract` är inställd på `contentAndMetadata`. En normaliserad bild refererar till extra bearbetning som resulterar i enhetlig bildutdata, storlek och roterad för att främja konsekvent återgivning när du inkluderar bilder i visuella sökresultat (till exempel fotografier av samma storlek i en grafkontroll som visas i JFK-demonstrationen). Den här informationen genereras för varje bild när du använder det här alternativet. Om du anger till `generateNormalizedImagePerPage`behandlas PDF-filer på olika sätt i stället för att extrahera inbäddade bilder återges varje sida som en bild och normaliseras därefter. Filtyper som inte är PDF-filer behandlas på samma sätt som om `generateNormalizedImages` de angavs.
`normalizedImageMaxWidth`	Alla heltal mellan 50-10000	Den maximala bredden (i bildpunkter) för normaliserade bilder som genereras. Standardvärdet är 2 000.
`normalizedImageMaxHeight`	Alla heltal mellan 50-10000	Den maximala höjden (i bildpunkter) för normaliserade bilder som genereras. Standardvärdet är 2 000.

imageAction

none
generateNormalizedImages
generateNormalizedImagePerPage

Ange till för att none ignorera inbäddade bilder eller bildfiler i datauppsättningen, eller om källdata inte innehåller bildfiler. Det här är standardinställningen.

För OCR och bildanalys anger du till att generateNormalizedImages kunskapen ska skapa en matris med normaliserade bilder som en del av dokumentsprickor. Den här åtgärden kräver att parsingMode den är inställd på default och dataToExtract är inställd på contentAndMetadata. En normaliserad bild refererar till extra bearbetning som resulterar i enhetlig bildutdata, storlek och roterad för att främja konsekvent återgivning när du inkluderar bilder i visuella sökresultat (till exempel fotografier av samma storlek i en grafkontroll som visas i JFK-demonstrationen). Den här informationen genereras för varje bild när du använder det här alternativet.

Om du anger till generateNormalizedImagePerPagebehandlas PDF-filer på olika sätt i stället för att extrahera inbäddade bilder återges varje sida som en bild och normaliseras därefter. Filtyper som inte är PDF-filer behandlas på samma sätt som om generateNormalizedImages de angavs.

normalizedImageMaxWidth Alla heltal mellan 50-10000 Den maximala bredden (i bildpunkter) för normaliserade bilder som genereras. Standardvärdet är 2 000.

normalizedImageMaxHeight Alla heltal mellan 50-10000 Den maximala höjden (i bildpunkter) för normaliserade bilder som genereras. Standardvärdet är 2 000.

Kommentar

Standardvärdet på 2 000 bildpunkter för normaliserade bilders maximala bredd och höjd baseras på de maximala storlekar som stöds av OCR-skickligheten och bildanalysens skicklighet. OCR-färdigheten stöder en maximal bredd och höjd på 4200 för icke-engelska språk och 10000 för engelska. Om du ökar de maximala gränserna kan bearbetningen misslyckas på större bilder beroende på din kompetensuppsättningsdefinition och dokumentens språk.

Kunskapsindata

Indatanamn	beskrivning
`file_data`	Filen som innehållet ska extraheras från.

Indata för "file_data" måste vara ett objekt som definieras som:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Alternativt kan den definieras som:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Filreferensobjektet kan genereras på något av tre sätt:

Ange parametern för allowSkillsetToReadFileData indexerarens definition till "true". Detta skapar en sökväg /document/file_data som är ett objekt som representerar de ursprungliga fildata som laddats ned från din blobdatakälla. Den här parametern gäller endast för filer i Blob Storage.
Ange parametern för imageAction indexerarens definition till ett annat värde än none. Detta skapar en matris med bilder som följer den nödvändiga konventionen för indata till den här färdigheten om den skickas individuellt (det vill: /document/normalized_images/*).
Om du har en anpassad färdighet returneras ett json-objekt som definierats EXAKT som ovan. Parametern $type måste anges till exakt file och parametern data måste vara grundläggande 64-kodade bytematrisdata för filinnehållet, eller så måste parametern url vara en korrekt formaterad URL med åtkomst för att ladda ned filen på den platsen.

Kunskapsutdata

Utdatanamn	beskrivning
`content`	Dokumentets textinnehåll.
`normalized_images`	`imageAction` När värdet är inställt på ett annat värde än `none`innehåller det nya fältet normalized_images en matris med bilder. Mer information om utdataformatet finns i Extrahera text och information från bilder .

Exempeldefinition

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Exempelindata

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Exempelutdata

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Dela via