Delen via


IndexingParametersConfiguration interface

Een woordenlijst met configuratie-eigenschappen die specifiek zijn voor een indexeerfunctie. Elke naam is de naam van een specifieke eigenschap. Elke waarde moet van een primitief type zijn.

Eigenschappen

allowSkillsetToReadFileData

Als waar is, maakt u een pad //document//file_data dat een object is dat de oorspronkelijke bestandsgegevens vertegenwoordigt die zijn gedownload uit uw blobgegevensbron. Hiermee kunt u de oorspronkelijke bestandsgegevens doorgeven aan een aangepaste vaardigheid voor verwerking in de verrijkingspijplijn of aan de vaardigheid Documentextractie.

dataToExtract

Hiermee geeft u de gegevens op die moeten worden geëxtraheerd uit Azure Blob Storage en wordt aan de indexeerfunctie aangegeven welke gegevens moeten worden geëxtraheerd uit afbeeldingsinhoud wanneer 'imageAction' is ingesteld op een andere waarde dan 'geen'. Dit geldt voor ingesloten afbeeldingsinhoud in een .PDF of andere toepassing, of afbeeldingsbestanden zoals .jpg en .png, in Azure-blobs.

delimitedTextDelimiter

Voor CSV-blobs geeft u het scheidingsteken met één teken op voor CSV-bestanden waarop elke regel een nieuw document start (bijvoorbeeld |).

delimitedTextHeaders

Voor CSV-blobs geeft u een door komma's gescheiden lijst met kolomkoppen op, handig voor het toewijzen van bronvelden aan doelvelden in een index.

documentRoot

Voor JSON-matrices, op basis van een gestructureerd of semi-gestructureerd document, kunt u een pad naar de matrix opgeven met behulp van deze eigenschap.

excludedFileNameExtensions

Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden genegeerd bij verwerking vanuit Azure Blob Storage. U kunt bijvoorbeeld '.png, .mp4' uitsluiten om deze bestanden over te slaan tijdens het indexeren.

executionEnvironment

Hiermee geeft u de omgeving waarin de indexeerfunctie moet worden uitgevoerd.

failOnUnprocessableDocument

Stel voor Azure-blobs in op false als u wilt doorgaan met indexeren als het indexeren van een document mislukt.

failOnUnsupportedContentType

Stel voor Azure-blobs in op onwaar als u wilt doorgaan met indexeren wanneer er een niet-ondersteund inhoudstype wordt aangetroffen en u niet alle inhoudstypen (bestandsextensies) van tevoren weet.

firstLineContainsHeaders

Voor CSV-blobs geeft u aan dat de eerste (niet-lege) regel van elke blob headers bevat.

imageAction

Bepaalt hoe u ingesloten afbeeldingen en afbeeldingsbestanden verwerkt in Azure Blob Storage. Als u de configuratie 'imageAction' instelt op een andere waarde dan 'geen', moet er ook een vaardighedenset aan die indexeerfunctie worden gekoppeld.

indexedFileNameExtensions

Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden geselecteerd bij verwerking in Azure Blob Storage. U kunt zich bijvoorbeeld richten op indexering op specifieke toepassingsbestanden '.docx, .pptx, .msg' om specifiek deze bestandstypen op te nemen.

indexStorageMetadataOnlyForOversizedDocuments

Voor Azure-blobs stelt u deze eigenschap in op True om nog steeds opslagmetagegevens te indexeren voor blob-inhoud die te groot is om te verwerken. Oversized blobs worden standaard behandeld als fouten. Zie https://docs.microsoft.com/azure/search/search-limits-quotas-capacityvoor limieten voor de blobgrootte.

parsingMode

Vertegenwoordigt de parseermodus voor indexering vanuit een Azure Blob-gegevensbron.

pdfTextRotationAlgorithm

Bepaalt het algoritme voor tekstextractie van PDF-bestanden in Azure Blob Storage.

queryTimeout

Hiermee wordt de time-out hoger dan de standaardwaarde van 5 minuten voor Azure SQL-databasegegevensbronnen, die zijn opgegeven in de indeling 'uu:mm:ss'.

Eigenschapdetails

allowSkillsetToReadFileData

Als waar is, maakt u een pad //document//file_data dat een object is dat de oorspronkelijke bestandsgegevens vertegenwoordigt die zijn gedownload uit uw blobgegevensbron. Hiermee kunt u de oorspronkelijke bestandsgegevens doorgeven aan een aangepaste vaardigheid voor verwerking in de verrijkingspijplijn of aan de vaardigheid Documentextractie.

allowSkillsetToReadFileData?: boolean

Waarde van eigenschap

boolean

dataToExtract

Hiermee geeft u de gegevens op die moeten worden geëxtraheerd uit Azure Blob Storage en wordt aan de indexeerfunctie aangegeven welke gegevens moeten worden geëxtraheerd uit afbeeldingsinhoud wanneer 'imageAction' is ingesteld op een andere waarde dan 'geen'. Dit geldt voor ingesloten afbeeldingsinhoud in een .PDF of andere toepassing, of afbeeldingsbestanden zoals .jpg en .png, in Azure-blobs.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Waarde van eigenschap

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

Voor CSV-blobs geeft u het scheidingsteken met één teken op voor CSV-bestanden waarop elke regel een nieuw document start (bijvoorbeeld |).

delimitedTextDelimiter?: string

Waarde van eigenschap

string

delimitedTextHeaders

Voor CSV-blobs geeft u een door komma's gescheiden lijst met kolomkoppen op, handig voor het toewijzen van bronvelden aan doelvelden in een index.

delimitedTextHeaders?: string

Waarde van eigenschap

string

documentRoot

Voor JSON-matrices, op basis van een gestructureerd of semi-gestructureerd document, kunt u een pad naar de matrix opgeven met behulp van deze eigenschap.

documentRoot?: string

Waarde van eigenschap

string

excludedFileNameExtensions

Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden genegeerd bij verwerking vanuit Azure Blob Storage. U kunt bijvoorbeeld '.png, .mp4' uitsluiten om deze bestanden over te slaan tijdens het indexeren.

excludedFileNameExtensions?: string

Waarde van eigenschap

string

executionEnvironment

Hiermee geeft u de omgeving waarin de indexeerfunctie moet worden uitgevoerd.

executionEnvironment?: "standard" | "private"

Waarde van eigenschap

"standard" | "private"

failOnUnprocessableDocument

Stel voor Azure-blobs in op false als u wilt doorgaan met indexeren als het indexeren van een document mislukt.

failOnUnprocessableDocument?: boolean

Waarde van eigenschap

boolean

failOnUnsupportedContentType

Stel voor Azure-blobs in op onwaar als u wilt doorgaan met indexeren wanneer er een niet-ondersteund inhoudstype wordt aangetroffen en u niet alle inhoudstypen (bestandsextensies) van tevoren weet.

failOnUnsupportedContentType?: boolean

Waarde van eigenschap

boolean

firstLineContainsHeaders

Voor CSV-blobs geeft u aan dat de eerste (niet-lege) regel van elke blob headers bevat.

firstLineContainsHeaders?: boolean

Waarde van eigenschap

boolean

imageAction

Bepaalt hoe u ingesloten afbeeldingen en afbeeldingsbestanden verwerkt in Azure Blob Storage. Als u de configuratie 'imageAction' instelt op een andere waarde dan 'geen', moet er ook een vaardighedenset aan die indexeerfunctie worden gekoppeld.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Waarde van eigenschap

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden geselecteerd bij verwerking in Azure Blob Storage. U kunt zich bijvoorbeeld richten op indexering op specifieke toepassingsbestanden '.docx, .pptx, .msg' om specifiek deze bestandstypen op te nemen.

indexedFileNameExtensions?: string

Waarde van eigenschap

string

indexStorageMetadataOnlyForOversizedDocuments

Voor Azure-blobs stelt u deze eigenschap in op True om nog steeds opslagmetagegevens te indexeren voor blob-inhoud die te groot is om te verwerken. Oversized blobs worden standaard behandeld als fouten. Zie https://docs.microsoft.com/azure/search/search-limits-quotas-capacityvoor limieten voor de blobgrootte.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Waarde van eigenschap

boolean

parsingMode

Vertegenwoordigt de parseermodus voor indexering vanuit een Azure Blob-gegevensbron.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

Waarde van eigenschap

"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

pdfTextRotationAlgorithm

Bepaalt het algoritme voor tekstextractie van PDF-bestanden in Azure Blob Storage.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Waarde van eigenschap

"none" | "detectAngles"

queryTimeout

Hiermee wordt de time-out hoger dan de standaardwaarde van 5 minuten voor Azure SQL-databasegegevensbronnen, die zijn opgegeven in de indeling 'uu:mm:ss'.

queryTimeout?: string

Waarde van eigenschap

string