Freigeben über


Dokumentlayoutfähigkeit

Hinweis

Dieses Feature ist zurzeit als öffentliche Preview verfügbar. Diese Vorschau wird ohne Vereinbarung zum Servicelevel bereitgestellt und nicht für Produktionsworkloads empfohlen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Die Dokumentlayoutfähigkeit analysiert ein Dokument, um interessante Bereiche und ihre Interbeziehungen zu extrahieren, um eine syntaktische Darstellung des Dokuments im Markdown-Format zu erzeugen. Diese Fähigkeit verwendet das Dokumentintelligenz-Layoutmodell, das in Azure AI Document Intelligence bereitgestellt wird.

Dieser Artikel ist die Referenzdokumentation für die Dokumentlayoutfähigkeit. Informationen zur Verwendung finden Sie unter Strukturfähiges Blöcken und Vektorisierung.

Die Dokumentlayoutfähigkeit ruft die Public Preview-Version 2024-07-31-Preview von Document Intelligence auf. Sie ist derzeit nur in den folgenden Azure-Regionen verfügbar:

  • East US
  • USA, Westen 2
  • Europa, Westen
  • USA Nord Mitte

Folgende Dateiformate werden unterstützt:

  • PDF.
  • .JPEG
  • .JPG
  • .PNG
  • .BMP
  • .TIFF
  • .docx
  • .xlsx
  • .PPTX
  • .HTML

Hinweis

Dieser Skill ist an Azure KI Services gebunden und erfordert eine abrechenbare Ressource für Transaktionen, die 20 Dokumente pro Indexer und Tag überschreiten. Die Ausführung integrierter Skills wird nach dem bestehenden nutzungsbasierten Preis für Azure KI Services berechnet.

@odata.type

Microsoft.Skills.Util.DocumentIntelligenceLayoutSkill

Datengrenzwerte

  • In den Formaten PDF und TIFF können bis zu 2,000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).
  • Auch wenn die Dateigröße für die Analyse von Dokumenten 500 MB für die kostenpflichtige Azure AI Document Intelligence-Stufe (S0) und 4 MB für die kostenlose Azure AI Document Intelligence -Ebene (F0) beträgt, unterliegt die Indizierung den Indexergrenzwerten Ihrer Suchdienstebene.
  • Bildabmessungen müssen zwischen 50 Pixel x 50 Pixel oder 10.000 Pixel x 10.000 Pixel betragen.
  • Wenn Ihre PDF-Dateien kennwortgesperrt sind, entfernen Sie die Sperre, bevor Sie den Indexer ausführen.

Unterstützte Sprachen

Informationen zum Azure AI Document Intelligence-Layoutmodell, das unterstützte Sprachen für gedruckten Text enthält.

Begrenzungen

Während der öffentlichen Vorschau hat diese Fähigkeit die folgenden Einschränkungen:

  • Die Fähigkeit kann bilder, die in Dokumenten eingebettet sind, nicht extrahieren.
  • Seitenzahlen sind nicht in der generierten Ausgabe enthalten.
  • Die Fähigkeit eignet sich nicht für große Dokumente, die mehr als 5 Minuten Verarbeitung im AI Document Intelligence-Layoutmodell erfordern. Die Qualifikation wird zeitüberschreitung, aber Gebühren gelten weiterhin für die AI Services Multi-Services-Ressource, wenn sie für Abrechnungszwecke an das Skillset angefügt ist. Stellen Sie sicher, dass Dokumente optimiert sind, um innerhalb der Verarbeitungsgrenzen zu bleiben, um unnötige Kosten zu vermeiden.

Skillparameter

Bei den Parametern wird zwischen Groß- und Kleinschreibung unterschieden.

Parametername Zulässige Werte Beschreibung
outputMode oneToMany Steuert die Kardinalität der Ausgabe, die von der Fähigkeit erzeugt wird.
markdownHeaderDepth h1, , h2h3, h4, , h5h6(default) Dieser Parameter beschreibt die tiefste Schachtelungsebene, die berücksichtigt werden soll. Wenn beispielsweise der markdownHeaderDepth als "h3" gekennzeichnet ist, wird jeder Markdown-Abschnitt, der tiefer als h3 ist (d. h3, #### und tiefer), als "Inhalt" betrachtet, der der übergeordneten Ebene hinzugefügt werden muss.

Skilleingaben

Eingabename Beschreibung
file_data Die Datei, aus der Inhalt extrahiert werden soll.

Die Eingabe „file_data“ muss ein Objekt sein, das wie folgt definiert wurde:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Alternativ kann es wie folgt definiert werden:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Das Dateiverweisobjekt kann auf eine der folgenden Arten generiert werden:

  • Festlegen des allowSkillsetToReadFileData Parameters für die Indexerdefinition auf "true". Diese Einstellung erstellt einen Pfad /document/file_data , der ein Objekt darstellt, das die ursprünglichen Dateidaten darstellt, die aus der BLOB-Datenquelle heruntergeladen wurden. Dieser Parameter gilt nur für Dateien im Azure Blob Storage.

  • Mit einer benutzerdefinierten Fähigkeit, ein JSON-Objekt zurückzugeben, das definiert ist $type, das , dataoder url und sastoken. Der $type Parameter muss auf file" data und muss das base64-codierte Bytearray des Dateiinhalts sein. Der url Parameter muss eine gültige URL mit Zugriff zum Herunterladen der Datei an diesem Speicherort sein.

Skillausgaben

Ausgabename Beschreibung
markdown_document Eine Auflistung von "Sections"-Objekten, die jeden einzelnen Abschnitt im Markdown-Dokument darstellen.

Beispieldefinition

{
  "skills": [
    {
      "description": "Analyze a document",
      "@odata.type": "#Microsoft.Skills.Util.DocumentLayoutAnalysisSkill",
      "context": "/document",
      "outputMode": "oneToMany", 
      "markdownHeaderDepth": "h3", 
      "inputs": [
        {
          "name": "file_data",
          "source": "/document/file_data"
        }
      ],
      "outputs": [
        {
          "name": "markdown_document", 
          "targetName": "markdown_document" 
        }
      ]
    }
  ]
}

Beispielausgabe

{
  "markdown_document": [
    { 
      "content": "Hi this is Jim \r\nHi this is Joe", 
      "sections": { 
        "h1": "Foo", 
        "h2": "Bar", 
        "h3": "" 
      },
      "ordinal_position": 0
    }, 
    { 
      "content": "Hi this is Lance",
      "sections": { 
         "h1": "Foo", 
         "h2": "Bar", 
         "h3": "Boo" 
      },
      "ordinal_position": 1,
    } 
  ] 
}

Der Wert der markdownHeaderDepth Steuerelemente steuert die Anzahl der Schlüssel im Wörterbuch "Abschnitte". In der Beispielfähigkeitsdefinition gibt es drei markdownHeaderDepth Schlüssel im Wörterbuch "Abschnitte": h1, h2, h3.

Siehe auch