Delen via


IndexingParametersConfiguration Klas

Een woordenlijst met configuratie-eigenschappen die specifiek zijn voor de indexeerfunctie. Elke naam is de naam van een specifieke eigenschap. Elke waarde moet van een primitief type zijn.

Overname
azure.search.documents.indexes._generated._serialization.Model
IndexingParametersConfiguration

Constructor

IndexingParametersConfiguration(*, additional_properties: Dict[str, Any] | None = None, parsing_mode: str | _models.BlobIndexerParsingMode = 'default', excluded_file_name_extensions: str = '', indexed_file_name_extensions: str = '', fail_on_unsupported_content_type: bool = False, fail_on_unprocessable_document: bool = False, index_storage_metadata_only_for_oversized_documents: bool = False, delimited_text_headers: str | None = None, delimited_text_delimiter: str | None = None, first_line_contains_headers: bool = True, document_root: str | None = None, data_to_extract: str | _models.BlobIndexerDataToExtract = 'contentAndMetadata', image_action: str | _models.BlobIndexerImageAction = 'none', allow_skillset_to_read_file_data: bool = False, pdf_text_rotation_algorithm: str | _models.BlobIndexerPDFTextRotationAlgorithm = 'none', execution_environment: str | _models.IndexerExecutionEnvironment = 'standard', query_timeout: str = '00:05:00', **kwargs: Any)

Keyword-Only Parameters

Name Description
additional_properties

Niet-overeenkomende eigenschappen van het bericht worden gedeserialiseerd voor deze verzameling.

parsing_mode
str of <xref:search_service_client.models.BlobIndexerParsingMode>

Vertegenwoordigt de parseermodus voor indexering vanuit een Azure-blobgegevensbron. Bekende waarden zijn: 'default', 'text', 'delimitedText', 'json', 'jsonArray' en 'jsonLines'.

standaardwaarde: default
excluded_file_name_extensions
str

Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden genegeerd bij het verwerken vanuit Azure Blob Storage. U kunt bijvoorbeeld '.png, .mp4' uitsluiten om deze bestanden over te slaan tijdens het indexeren.

indexed_file_name_extensions
str

Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden geselecteerd bij het verwerken vanuit Azure Blob Storage. U kunt het indexeren bijvoorbeeld richten op specifieke toepassingsbestanden '.docx, .pptx, .msg' om specifiek deze bestandstypen op te nemen.

fail_on_unsupported_content_type

Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren wanneer er een niet-ondersteund inhoudstype wordt aangetroffen en u niet alle inhoudstypen (bestandsextensies) van tevoren kent.

fail_on_unprocessable_document

Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren als het indexeren van een document mislukt.

index_storage_metadata_only_for_oversized_documents

Voor Azure-blobs stelt u deze eigenschap in op True om nog steeds opslagmetagegevens te indexeren voor blobinhoud die te groot is om te verwerken. Te grote blobs worden standaard behandeld als fouten. Zie voor limieten voor blobgrootte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

delimited_text_headers
str

Voor CSV-blobs geeft u een door komma's gescheiden lijst met kolomkoppen op, handig voor het toewijzen van bronvelden aan doelvelden in een index.

delimited_text_delimiter
str

Voor CSV-blobs geeft u het scheidingsteken voor het einde van regel met één teken op voor CSV-bestanden waarbij elke regel een nieuw document start (bijvoorbeeld |).

first_line_contains_headers

Voor CSV-blobs geeft aan dat de eerste (niet-lege) regel van elke blob headers bevat.

standaardwaarde: True
document_root
str

Voor JSON-matrices kunt u op basis van een gestructureerd of semi-gestructureerd document een pad naar de matrix opgeven met behulp van deze eigenschap.

data_to_extract
str of <xref:search_service_client.models.BlobIndexerDataToExtract>

Hiermee geeft u de gegevens op die uit Azure Blob Storage moeten worden geëxtraheerd en wordt aan de indexeerfunctie aangegeven welke gegevens moeten worden geëxtraheerd uit afbeeldingsinhoud wanneer 'imageAction' is ingesteld op een andere waarde dan 'geen'. Dit geldt voor ingesloten afbeeldingsinhoud in een .PDF of een andere toepassing, of afbeeldingsbestanden zoals .jpg en .png, in Azure-blobs. Bekende waarden zijn: 'storageMetadata', 'allMetadata' en 'contentAndMetadata'.

standaardwaarde: contentAndMetadata
image_action
str of <xref:search_service_client.models.BlobIndexerImageAction>

Bepaalt hoe ingesloten afbeeldingen en afbeeldingsbestanden moeten worden verwerkt in Azure Blob Storage. Als u de configuratie 'imageAction' instelt op een andere waarde dan 'geen', moet er ook een vaardighedenset aan die indexeerfunctie worden gekoppeld. Bekende waarden zijn: 'none', 'generateNormalizedImages' en 'generateNormalizedImagePerPage'.

standaardwaarde: none
allow_skillset_to_read_file_data

Indien waar, wordt een pad //document//file_data gemaakt dat een object is dat de oorspronkelijke bestandsgegevens vertegenwoordigt die zijn gedownload uit uw blobgegevensbron. Hiermee kunt u de oorspronkelijke bestandsgegevens doorgeven aan een aangepaste vaardigheid voor verwerking binnen de verrijkingspijplijn of aan de vaardigheid Documentextractie.

pdf_text_rotation_algorithm
str of <xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>

Bepaalt het algoritme voor tekstextractie uit PDF-bestanden in Azure Blob Storage. Bekende waarden zijn: 'none' en 'detectAngles'.

standaardwaarde: none
execution_environment
str of <xref:search_service_client.models.IndexerExecutionEnvironment>

Hiermee geeft u de omgeving op waarin de indexeerfunctie moet worden uitgevoerd. Bekende waarden zijn: 'standaard' en 'privé'.

standaardwaarde: standard
query_timeout
str

Hiermee wordt de time-out groter dan de standaardwaarde van 5 minuten voor Azure SQL databasegegevensbronnen, opgegeven in de indeling 'uu:mm:ss'.

standaardwaarde: 00:05:00

Variabelen

Name Description
additional_properties

Niet-overeenkomende eigenschappen van het bericht worden gedeserialiseerd voor deze verzameling.

parsing_mode
str of <xref:search_service_client.models.BlobIndexerParsingMode>

Vertegenwoordigt de parseermodus voor indexering vanuit een Azure-blobgegevensbron. Bekende waarden zijn: 'default', 'text', 'delimitedText', 'json', 'jsonArray' en 'jsonLines'.

excluded_file_name_extensions
str

Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden genegeerd bij het verwerken vanuit Azure Blob Storage. U kunt bijvoorbeeld '.png, .mp4' uitsluiten om deze bestanden over te slaan tijdens het indexeren.

indexed_file_name_extensions
str

Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden geselecteerd bij het verwerken vanuit Azure Blob Storage. U kunt het indexeren bijvoorbeeld richten op specifieke toepassingsbestanden '.docx, .pptx, .msg' om specifiek deze bestandstypen op te nemen.

fail_on_unsupported_content_type

Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren wanneer er een niet-ondersteund inhoudstype wordt aangetroffen en u niet alle inhoudstypen (bestandsextensies) van tevoren kent.

fail_on_unprocessable_document

Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren als het indexeren van een document mislukt.

index_storage_metadata_only_for_oversized_documents

Voor Azure-blobs stelt u deze eigenschap in op True om nog steeds opslagmetagegevens te indexeren voor blobinhoud die te groot is om te verwerken. Te grote blobs worden standaard behandeld als fouten. Zie voor limieten voor blobgrootte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

delimited_text_headers
str

Voor CSV-blobs geeft u een door komma's gescheiden lijst met kolomkoppen op, handig voor het toewijzen van bronvelden aan doelvelden in een index.

delimited_text_delimiter
str

Voor CSV-blobs geeft u het scheidingsteken voor het einde van regel met één teken op voor CSV-bestanden waarbij elke regel een nieuw document start (bijvoorbeeld |).

first_line_contains_headers

Voor CSV-blobs geeft aan dat de eerste (niet-lege) regel van elke blob headers bevat.

document_root
str

Voor JSON-matrices kunt u op basis van een gestructureerd of semi-gestructureerd document een pad naar de matrix opgeven met behulp van deze eigenschap.

data_to_extract
str of <xref:search_service_client.models.BlobIndexerDataToExtract>

Hiermee geeft u de gegevens op die uit Azure Blob Storage moeten worden geëxtraheerd en wordt aan de indexeerfunctie aangegeven welke gegevens moeten worden geëxtraheerd uit afbeeldingsinhoud wanneer 'imageAction' is ingesteld op een andere waarde dan 'geen'. Dit geldt voor ingesloten afbeeldingsinhoud in een .PDF of een andere toepassing, of afbeeldingsbestanden zoals .jpg en .png, in Azure-blobs. Bekende waarden zijn: 'storageMetadata', 'allMetadata' en 'contentAndMetadata'.

image_action
str of <xref:search_service_client.models.BlobIndexerImageAction>

Bepaalt hoe ingesloten afbeeldingen en afbeeldingsbestanden moeten worden verwerkt in Azure Blob Storage. Als u de configuratie 'imageAction' instelt op een andere waarde dan 'geen', moet er ook een vaardighedenset aan die indexeerfunctie worden gekoppeld. Bekende waarden zijn: 'none', 'generateNormalizedImages' en 'generateNormalizedImagePerPage'.

allow_skillset_to_read_file_data

Indien waar, wordt een pad //document//file_data gemaakt dat een object is dat de oorspronkelijke bestandsgegevens vertegenwoordigt die zijn gedownload uit uw blobgegevensbron. Hiermee kunt u de oorspronkelijke bestandsgegevens doorgeven aan een aangepaste vaardigheid voor verwerking binnen de verrijkingspijplijn of aan de vaardigheid Documentextractie.

pdf_text_rotation_algorithm
str of <xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>

Bepaalt het algoritme voor tekstextractie uit PDF-bestanden in Azure Blob Storage. Bekende waarden zijn: 'none' en 'detectAngles'.

execution_environment
str of <xref:search_service_client.models.IndexerExecutionEnvironment>

Hiermee geeft u de omgeving op waarin de indexeerfunctie moet worden uitgevoerd. Bekende waarden zijn: 'standaard' en 'privé'.

query_timeout
str

Hiermee wordt de time-out groter dan de standaardwaarde van 5 minuten voor Azure SQL databasegegevensbronnen, opgegeven in de indeling 'uu:mm:ss'.

Methoden

as_dict

Een dict retourneren dat kan worden geserialiseerd met behulp van json.dump.

Geavanceerd gebruik kan eventueel een callback gebruiken als parameter:

Sleutel is de kenmerknaam die wordt gebruikt in Python. Attr_desc is een dictaat van metagegevens. Bevat momenteel 'type' met het msrest-type en 'key' met de RestAPI-gecodeerde sleutel. Waarde is de huidige waarde in dit object.

De geretourneerde tekenreeks wordt gebruikt om de sleutel te serialiseren. Als het retourtype een lijst is, wordt dit beschouwd als hiërarchische resultaatdicteerfunctie.

Bekijk de drie voorbeelden in dit bestand:

  • attribute_transformer

  • full_restapi_key_transformer

  • last_restapi_key_transformer

Als u XML-serialisatie wilt, kunt u de kwargs-is_xml=True doorgeven.

deserialize

Parseert een str met behulp van de RestAPI-syntaxis en retourneer een model.

enable_additional_properties_sending
from_dict

Een dicteren met behulp van de opgegeven sleutelextractor retourneert een model.

Houd standaard rekening met sleutelextracties (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor en last_rest_key_case_insensitive_extractor)

is_xml_model
serialize

Retourneer de JSON die vanuit dit model naar de server wordt verzonden.

Dit is een alias voor as_dict(full_restapi_key_transformer, keep_readonly=False).

Als u XML-serialisatie wilt, kunt u de kwargs-is_xml=True doorgeven.

as_dict

Een dict retourneren dat kan worden geserialiseerd met behulp van json.dump.

Geavanceerd gebruik kan eventueel een callback gebruiken als parameter:

Sleutel is de kenmerknaam die wordt gebruikt in Python. Attr_desc is een dictaat van metagegevens. Bevat momenteel 'type' met het msrest-type en 'key' met de RestAPI-gecodeerde sleutel. Waarde is de huidige waarde in dit object.

De geretourneerde tekenreeks wordt gebruikt om de sleutel te serialiseren. Als het retourtype een lijst is, wordt dit beschouwd als hiërarchische resultaatdicteerfunctie.

Bekijk de drie voorbeelden in dit bestand:

  • attribute_transformer

  • full_restapi_key_transformer

  • last_restapi_key_transformer

Als u XML-serialisatie wilt, kunt u de kwargs-is_xml=True doorgeven.

as_dict(keep_readonly: bool = True, key_transformer: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Any], ~typing.Any], ~typing.Any] = <function attribute_transformer>, **kwargs: ~typing.Any) -> MutableMapping[str, Any]

Parameters

Name Description
key_transformer
<xref:function>

Een sleuteltransformatorfunctie.

keep_readonly
standaardwaarde: True

Retouren

Type Description

Een dict JSON-compatibel object

deserialize

Parseert een str met behulp van de RestAPI-syntaxis en retourneer een model.

deserialize(data: Any, content_type: str | None = None) -> ModelType

Parameters

Name Description
data
Vereist
str

Een str met behulp van restAPI-structuur. JSON standaard.

content_type
str

JSON stelt standaard toepassing/xml in als XML.

standaardwaarde: None

Retouren

Type Description

Een exemplaar van dit model

Uitzonderingen

Type Description
DeserializationError if something went wrong

enable_additional_properties_sending

enable_additional_properties_sending() -> None

from_dict

Een dicteren met behulp van de opgegeven sleutelextractor retourneert een model.

Houd standaard rekening met sleutelextracties (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor en last_rest_key_case_insensitive_extractor)

from_dict(data: Any, key_extractors: Callable[[str, Dict[str, Any], Any], Any] | None = None, content_type: str | None = None) -> ModelType

Parameters

Name Description
data
Vereist

Een dicteerfunctie met restAPI-structuur

content_type
str

JSON stelt standaard toepassing/xml in als XML.

standaardwaarde: None
key_extractors
standaardwaarde: None

Retouren

Type Description

Een exemplaar van dit model

Uitzonderingen

Type Description
DeserializationError if something went wrong

is_xml_model

is_xml_model() -> bool

serialize

Retourneer de JSON die vanuit dit model naar de server wordt verzonden.

Dit is een alias voor as_dict(full_restapi_key_transformer, keep_readonly=False).

Als u XML-serialisatie wilt, kunt u de kwargs-is_xml=True doorgeven.

serialize(keep_readonly: bool = False, **kwargs: Any) -> MutableMapping[str, Any]

Parameters

Name Description
keep_readonly

Als u de alleen-lezen kenmerken wilt serialiseren

standaardwaarde: False

Retouren

Type Description

Een dict JSON-compatibel object