IndexingParametersConfiguration interface

Referentie

Pakket:: @azure/search-documents

Een woordenlijst met configuratie-eigenschappen die specifiek zijn voor de indexeerfunctie. Elke naam is de naam van een specifieke eigenschap. Elke waarde moet van een primitief type zijn.

Eigenschappen

allowSkillsetToReadFileData	Indien waar, wordt een pad //document//file_data gemaakt dat een object is dat de oorspronkelijke bestandsgegevens vertegenwoordigt die zijn gedownload uit uw blobgegevensbron. Hiermee kunt u de oorspronkelijke bestandsgegevens doorgeven aan een aangepaste vaardigheid voor verwerking binnen de verrijkingspijplijn of aan de vaardigheid Documentextractie.
dataToExtract	Hiermee geeft u de gegevens op die uit Azure Blob Storage moeten worden geëxtraheerd en wordt aan de indexeerfunctie aangegeven welke gegevens moeten worden geëxtraheerd uit afbeeldingsinhoud wanneer 'imageAction' is ingesteld op een andere waarde dan 'geen'. Dit is van toepassing op ingesloten afbeeldingsinhoud in een .PDF of een andere toepassing, of afbeeldingsbestanden zoals .jpg en .png, in Azure-blobs.
delimitedTextDelimiter	Voor CSV-blobs geeft u het scheidingsteken voor het einde van regel met één teken op voor CSV-bestanden waarbij elke regel een nieuw document start (bijvoorbeeld '\|').
delimitedTextHeaders	Voor CSV-blobs geeft u een door komma's gescheiden lijst met kolomkoppen op, handig voor het toewijzen van bronvelden aan doelvelden in een index.
documentRoot	Voor JSON-matrices kunt u op basis van een gestructureerd of semi-gestructureerd document een pad naar de matrix opgeven met behulp van deze eigenschap.
excludedFileNameExtensions	Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden genegeerd bij het verwerken vanuit Azure Blob Storage. U kunt bijvoorbeeld '.png, .mp4' uitsluiten om deze bestanden over te slaan tijdens het indexeren.
executionEnvironment	Hiermee geeft u de omgeving op waarin de indexeerfunctie moet worden uitgevoerd.
failOnUnprocessableDocument	Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren als het indexeren van een document mislukt.
failOnUnsupportedContentType	Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren wanneer een niet-ondersteund inhoudstype wordt aangetroffen en u niet alle inhoudstypen (bestandsextensies) van tevoren kent.
firstLineContainsHeaders	Voor CSV-blobs geeft aan dat de eerste (niet-lege) regel van elke blob headers bevat.
imageAction	Bepaalt hoe ingesloten afbeeldingen en afbeeldingsbestanden moeten worden verwerkt in Azure Blob Storage. Als u de configuratie 'imageAction' instelt op een andere waarde dan 'geen', moet er ook een vaardighedenset aan die indexeerfunctie worden gekoppeld.
indexedFileNameExtensions	Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden geselecteerd bij het verwerken vanuit Azure Blob Storage. U kunt het indexeren bijvoorbeeld richten op specifieke toepassingsbestanden '.docx, .pptx, .msg' om specifiek deze bestandstypen op te nemen.
indexStorageMetadataOnlyForOversizedDocuments	Voor Azure-blobs stelt u deze eigenschap in op True om nog steeds opslagmetagegevens te indexeren voor blobinhoud die te groot is om te verwerken. Te grote blobs worden standaard behandeld als fouten. Zie voor limieten voor blobgrootte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
parsingMode	Vertegenwoordigt de parseermodus voor indexering vanuit een Azure-blobgegevensbron.
pdfTextRotationAlgorithm	Bepaalt het algoritme voor tekstextractie uit PDF-bestanden in Azure Blob Storage.
queryTimeout	Hiermee wordt de time-out groter dan de standaardwaarde van 5 minuten voor Azure SQL databasegegevensbronnen, opgegeven in de indeling 'uu:mm:ss'.

Eigenschapdetails

allowSkillsetToReadFileData

Indien waar, wordt een pad //document//file_data gemaakt dat een object is dat de oorspronkelijke bestandsgegevens vertegenwoordigt die zijn gedownload uit uw blobgegevensbron. Hiermee kunt u de oorspronkelijke bestandsgegevens doorgeven aan een aangepaste vaardigheid voor verwerking binnen de verrijkingspijplijn of aan de vaardigheid Documentextractie.

allowSkillsetToReadFileData?: boolean

Waarde van eigenschap

boolean

dataToExtract

Hiermee geeft u de gegevens op die uit Azure Blob Storage moeten worden geëxtraheerd en wordt aan de indexeerfunctie aangegeven welke gegevens moeten worden geëxtraheerd uit afbeeldingsinhoud wanneer 'imageAction' is ingesteld op een andere waarde dan 'geen'. Dit is van toepassing op ingesloten afbeeldingsinhoud in een .PDF of een andere toepassing, of afbeeldingsbestanden zoals .jpg en .png, in Azure-blobs.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Waarde van eigenschap

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

Voor CSV-blobs geeft u het scheidingsteken voor het einde van regel met één teken op voor CSV-bestanden waarbij elke regel een nieuw document start (bijvoorbeeld '|').

delimitedTextDelimiter?: string

Waarde van eigenschap

string

delimitedTextHeaders

Voor CSV-blobs geeft u een door komma's gescheiden lijst met kolomkoppen op, handig voor het toewijzen van bronvelden aan doelvelden in een index.

delimitedTextHeaders?: string

Waarde van eigenschap

string

documentRoot

Voor JSON-matrices kunt u op basis van een gestructureerd of semi-gestructureerd document een pad naar de matrix opgeven met behulp van deze eigenschap.

documentRoot?: string

Waarde van eigenschap

string

excludedFileNameExtensions

Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden genegeerd bij het verwerken vanuit Azure Blob Storage. U kunt bijvoorbeeld '.png, .mp4' uitsluiten om deze bestanden over te slaan tijdens het indexeren.

excludedFileNameExtensions?: string

Waarde van eigenschap

string

executionEnvironment

Hiermee geeft u de omgeving op waarin de indexeerfunctie moet worden uitgevoerd.

executionEnvironment?: "standard" | "private"

Waarde van eigenschap

"standard" | "private"

failOnUnprocessableDocument

Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren als het indexeren van een document mislukt.

failOnUnprocessableDocument?: boolean

Waarde van eigenschap

boolean

failOnUnsupportedContentType

Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren wanneer een niet-ondersteund inhoudstype wordt aangetroffen en u niet alle inhoudstypen (bestandsextensies) van tevoren kent.

failOnUnsupportedContentType?: boolean

Waarde van eigenschap

boolean

firstLineContainsHeaders

Voor CSV-blobs geeft aan dat de eerste (niet-lege) regel van elke blob headers bevat.

firstLineContainsHeaders?: boolean

Waarde van eigenschap

boolean

imageAction

Bepaalt hoe ingesloten afbeeldingen en afbeeldingsbestanden moeten worden verwerkt in Azure Blob Storage. Als u de configuratie 'imageAction' instelt op een andere waarde dan 'geen', moet er ook een vaardighedenset aan die indexeerfunctie worden gekoppeld.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Waarde van eigenschap

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden geselecteerd bij het verwerken vanuit Azure Blob Storage. U kunt het indexeren bijvoorbeeld richten op specifieke toepassingsbestanden '.docx, .pptx, .msg' om specifiek deze bestandstypen op te nemen.

indexedFileNameExtensions?: string

Waarde van eigenschap

string

indexStorageMetadataOnlyForOversizedDocuments

Voor Azure-blobs stelt u deze eigenschap in op True om nog steeds opslagmetagegevens te indexeren voor blobinhoud die te groot is om te verwerken. Te grote blobs worden standaard behandeld als fouten. Zie voor limieten voor blobgrootte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Waarde van eigenschap

boolean

parsingMode

Vertegenwoordigt de parseermodus voor indexering vanuit een Azure-blobgegevensbron.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

Waarde van eigenschap

pdfTextRotationAlgorithm

Bepaalt het algoritme voor tekstextractie uit PDF-bestanden in Azure Blob Storage.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Waarde van eigenschap

"none" | "detectAngles"

queryTimeout

Hiermee wordt de time-out groter dan de standaardwaarde van 5 minuten voor Azure SQL databasegegevensbronnen, opgegeven in de indeling 'uu:mm:ss'.

queryTimeout?: string

Waarde van eigenschap

string

Delen via

IndexingParametersConfiguration interface

Eigenschappen

Eigenschapdetails

allowSkillsetToReadFileData

Waarde van eigenschap

dataToExtract

Waarde van eigenschap

delimitedTextDelimiter

Waarde van eigenschap

delimitedTextHeaders

Waarde van eigenschap

documentRoot

Waarde van eigenschap

excludedFileNameExtensions

Waarde van eigenschap

executionEnvironment

Waarde van eigenschap

failOnUnprocessableDocument

Waarde van eigenschap

failOnUnsupportedContentType

Waarde van eigenschap

firstLineContainsHeaders

Waarde van eigenschap

imageAction

Waarde van eigenschap

indexedFileNameExtensions

Waarde van eigenschap

indexStorageMetadataOnlyForOversizedDocuments

Waarde van eigenschap

parsingMode

Waarde van eigenschap

pdfTextRotationAlgorithm

Waarde van eigenschap

queryTimeout

Waarde van eigenschap

Aanvullende resources