IndexingParametersConfiguration Klas
Een woordenlijst met configuratie-eigenschappen die specifiek zijn voor de indexeerfunctie. Elke naam is de naam van een specifieke eigenschap. Elke waarde moet van een primitief type zijn.
- Overname
-
azure.search.documents.indexes._generated._serialization.ModelIndexingParametersConfiguration
Constructor
IndexingParametersConfiguration(*, additional_properties: Dict[str, Any] | None = None, parsing_mode: str | _models.BlobIndexerParsingMode = 'default', excluded_file_name_extensions: str = '', indexed_file_name_extensions: str = '', fail_on_unsupported_content_type: bool = False, fail_on_unprocessable_document: bool = False, index_storage_metadata_only_for_oversized_documents: bool = False, delimited_text_headers: str | None = None, delimited_text_delimiter: str | None = None, first_line_contains_headers: bool = True, document_root: str | None = None, data_to_extract: str | _models.BlobIndexerDataToExtract = 'contentAndMetadata', image_action: str | _models.BlobIndexerImageAction = 'none', allow_skillset_to_read_file_data: bool = False, pdf_text_rotation_algorithm: str | _models.BlobIndexerPDFTextRotationAlgorithm = 'none', execution_environment: str | _models.IndexerExecutionEnvironment = 'standard', query_timeout: str = '00:05:00', **kwargs: Any)
Keyword-Only Parameters
Name | Description |
---|---|
additional_properties
|
Niet-overeenkomende eigenschappen van het bericht worden gedeserialiseerd voor deze verzameling. |
parsing_mode
|
str of
<xref:search_service_client.models.BlobIndexerParsingMode>
Vertegenwoordigt de parseermodus voor indexering vanuit een Azure-blobgegevensbron. Bekende waarden zijn: 'default', 'text', 'delimitedText', 'json', 'jsonArray' en 'jsonLines'. standaardwaarde: default
|
excluded_file_name_extensions
|
Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden genegeerd bij het verwerken vanuit Azure Blob Storage. U kunt bijvoorbeeld '.png, .mp4' uitsluiten om deze bestanden over te slaan tijdens het indexeren. |
indexed_file_name_extensions
|
Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden geselecteerd bij het verwerken vanuit Azure Blob Storage. U kunt het indexeren bijvoorbeeld richten op specifieke toepassingsbestanden '.docx, .pptx, .msg' om specifiek deze bestandstypen op te nemen. |
fail_on_unsupported_content_type
|
Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren wanneer er een niet-ondersteund inhoudstype wordt aangetroffen en u niet alle inhoudstypen (bestandsextensies) van tevoren kent. |
fail_on_unprocessable_document
|
Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren als het indexeren van een document mislukt. |
index_storage_metadata_only_for_oversized_documents
|
Voor Azure-blobs stelt u deze eigenschap in op True om nog steeds opslagmetagegevens te indexeren voor blobinhoud die te groot is om te verwerken. Te grote blobs worden standaard behandeld als fouten. Zie voor limieten voor blobgrootte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
delimited_text_headers
|
Voor CSV-blobs geeft u een door komma's gescheiden lijst met kolomkoppen op, handig voor het toewijzen van bronvelden aan doelvelden in een index. |
delimited_text_delimiter
|
Voor CSV-blobs geeft u het scheidingsteken voor het einde van regel met één teken op voor CSV-bestanden waarbij elke regel een nieuw document start (bijvoorbeeld |). |
first_line_contains_headers
|
Voor CSV-blobs geeft aan dat de eerste (niet-lege) regel van elke blob headers bevat. standaardwaarde: True
|
document_root
|
Voor JSON-matrices kunt u op basis van een gestructureerd of semi-gestructureerd document een pad naar de matrix opgeven met behulp van deze eigenschap. |
data_to_extract
|
str of
<xref:search_service_client.models.BlobIndexerDataToExtract>
Hiermee geeft u de gegevens op die uit Azure Blob Storage moeten worden geëxtraheerd en wordt aan de indexeerfunctie aangegeven welke gegevens moeten worden geëxtraheerd uit afbeeldingsinhoud wanneer 'imageAction' is ingesteld op een andere waarde dan 'geen'. Dit geldt voor ingesloten afbeeldingsinhoud in een .PDF of een andere toepassing, of afbeeldingsbestanden zoals .jpg en .png, in Azure-blobs. Bekende waarden zijn: 'storageMetadata', 'allMetadata' en 'contentAndMetadata'. standaardwaarde: contentAndMetadata
|
image_action
|
str of
<xref:search_service_client.models.BlobIndexerImageAction>
Bepaalt hoe ingesloten afbeeldingen en afbeeldingsbestanden moeten worden verwerkt in Azure Blob Storage. Als u de configuratie 'imageAction' instelt op een andere waarde dan 'geen', moet er ook een vaardighedenset aan die indexeerfunctie worden gekoppeld. Bekende waarden zijn: 'none', 'generateNormalizedImages' en 'generateNormalizedImagePerPage'. standaardwaarde: none
|
allow_skillset_to_read_file_data
|
Indien waar, wordt een pad //document//file_data gemaakt dat een object is dat de oorspronkelijke bestandsgegevens vertegenwoordigt die zijn gedownload uit uw blobgegevensbron. Hiermee kunt u de oorspronkelijke bestandsgegevens doorgeven aan een aangepaste vaardigheid voor verwerking binnen de verrijkingspijplijn of aan de vaardigheid Documentextractie. |
pdf_text_rotation_algorithm
|
str of
<xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>
Bepaalt het algoritme voor tekstextractie uit PDF-bestanden in Azure Blob Storage. Bekende waarden zijn: 'none' en 'detectAngles'. standaardwaarde: none
|
execution_environment
|
str of
<xref:search_service_client.models.IndexerExecutionEnvironment>
Hiermee geeft u de omgeving op waarin de indexeerfunctie moet worden uitgevoerd. Bekende waarden zijn: 'standaard' en 'privé'. standaardwaarde: standard
|
query_timeout
|
Hiermee wordt de time-out groter dan de standaardwaarde van 5 minuten voor Azure SQL databasegegevensbronnen, opgegeven in de indeling 'uu:mm:ss'. standaardwaarde: 00:05:00
|
Variabelen
Name | Description |
---|---|
additional_properties
|
Niet-overeenkomende eigenschappen van het bericht worden gedeserialiseerd voor deze verzameling. |
parsing_mode
|
str of
<xref:search_service_client.models.BlobIndexerParsingMode>
Vertegenwoordigt de parseermodus voor indexering vanuit een Azure-blobgegevensbron. Bekende waarden zijn: 'default', 'text', 'delimitedText', 'json', 'jsonArray' en 'jsonLines'. |
excluded_file_name_extensions
|
Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden genegeerd bij het verwerken vanuit Azure Blob Storage. U kunt bijvoorbeeld '.png, .mp4' uitsluiten om deze bestanden over te slaan tijdens het indexeren. |
indexed_file_name_extensions
|
Door komma's gescheiden lijst met bestandsnaamextensies die moeten worden geselecteerd bij het verwerken vanuit Azure Blob Storage. U kunt het indexeren bijvoorbeeld richten op specifieke toepassingsbestanden '.docx, .pptx, .msg' om specifiek deze bestandstypen op te nemen. |
fail_on_unsupported_content_type
|
Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren wanneer er een niet-ondersteund inhoudstype wordt aangetroffen en u niet alle inhoudstypen (bestandsextensies) van tevoren kent. |
fail_on_unprocessable_document
|
Voor Azure-blobs stelt u in op false als u wilt doorgaan met indexeren als het indexeren van een document mislukt. |
index_storage_metadata_only_for_oversized_documents
|
Voor Azure-blobs stelt u deze eigenschap in op True om nog steeds opslagmetagegevens te indexeren voor blobinhoud die te groot is om te verwerken. Te grote blobs worden standaard behandeld als fouten. Zie voor limieten voor blobgrootte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
delimited_text_headers
|
Voor CSV-blobs geeft u een door komma's gescheiden lijst met kolomkoppen op, handig voor het toewijzen van bronvelden aan doelvelden in een index. |
delimited_text_delimiter
|
Voor CSV-blobs geeft u het scheidingsteken voor het einde van regel met één teken op voor CSV-bestanden waarbij elke regel een nieuw document start (bijvoorbeeld |). |
first_line_contains_headers
|
Voor CSV-blobs geeft aan dat de eerste (niet-lege) regel van elke blob headers bevat. |
document_root
|
Voor JSON-matrices kunt u op basis van een gestructureerd of semi-gestructureerd document een pad naar de matrix opgeven met behulp van deze eigenschap. |
data_to_extract
|
str of
<xref:search_service_client.models.BlobIndexerDataToExtract>
Hiermee geeft u de gegevens op die uit Azure Blob Storage moeten worden geëxtraheerd en wordt aan de indexeerfunctie aangegeven welke gegevens moeten worden geëxtraheerd uit afbeeldingsinhoud wanneer 'imageAction' is ingesteld op een andere waarde dan 'geen'. Dit geldt voor ingesloten afbeeldingsinhoud in een .PDF of een andere toepassing, of afbeeldingsbestanden zoals .jpg en .png, in Azure-blobs. Bekende waarden zijn: 'storageMetadata', 'allMetadata' en 'contentAndMetadata'. |
image_action
|
str of
<xref:search_service_client.models.BlobIndexerImageAction>
Bepaalt hoe ingesloten afbeeldingen en afbeeldingsbestanden moeten worden verwerkt in Azure Blob Storage. Als u de configuratie 'imageAction' instelt op een andere waarde dan 'geen', moet er ook een vaardighedenset aan die indexeerfunctie worden gekoppeld. Bekende waarden zijn: 'none', 'generateNormalizedImages' en 'generateNormalizedImagePerPage'. |
allow_skillset_to_read_file_data
|
Indien waar, wordt een pad //document//file_data gemaakt dat een object is dat de oorspronkelijke bestandsgegevens vertegenwoordigt die zijn gedownload uit uw blobgegevensbron. Hiermee kunt u de oorspronkelijke bestandsgegevens doorgeven aan een aangepaste vaardigheid voor verwerking binnen de verrijkingspijplijn of aan de vaardigheid Documentextractie. |
pdf_text_rotation_algorithm
|
str of
<xref:search_service_client.models.BlobIndexerPDFTextRotationAlgorithm>
Bepaalt het algoritme voor tekstextractie uit PDF-bestanden in Azure Blob Storage. Bekende waarden zijn: 'none' en 'detectAngles'. |
execution_environment
|
str of
<xref:search_service_client.models.IndexerExecutionEnvironment>
Hiermee geeft u de omgeving op waarin de indexeerfunctie moet worden uitgevoerd. Bekende waarden zijn: 'standaard' en 'privé'. |
query_timeout
|
Hiermee wordt de time-out groter dan de standaardwaarde van 5 minuten voor Azure SQL databasegegevensbronnen, opgegeven in de indeling 'uu:mm:ss'. |
Methoden
as_dict |
Een dict retourneren dat kan worden geserialiseerd met behulp van json.dump. Geavanceerd gebruik kan eventueel een callback gebruiken als parameter: Sleutel is de kenmerknaam die wordt gebruikt in Python. Attr_desc is een dictaat van metagegevens. Bevat momenteel 'type' met het msrest-type en 'key' met de RestAPI-gecodeerde sleutel. Waarde is de huidige waarde in dit object. De geretourneerde tekenreeks wordt gebruikt om de sleutel te serialiseren. Als het retourtype een lijst is, wordt dit beschouwd als hiërarchische resultaatdicteerfunctie. Bekijk de drie voorbeelden in dit bestand:
Als u XML-serialisatie wilt, kunt u de kwargs-is_xml=True doorgeven. |
deserialize |
Parseert een str met behulp van de RestAPI-syntaxis en retourneer een model. |
enable_additional_properties_sending | |
from_dict |
Een dicteren met behulp van de opgegeven sleutelextractor retourneert een model. Houd standaard rekening met sleutelextracties (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor en last_rest_key_case_insensitive_extractor) |
is_xml_model | |
serialize |
Retourneer de JSON die vanuit dit model naar de server wordt verzonden. Dit is een alias voor as_dict(full_restapi_key_transformer, keep_readonly=False). Als u XML-serialisatie wilt, kunt u de kwargs-is_xml=True doorgeven. |
as_dict
Een dict retourneren dat kan worden geserialiseerd met behulp van json.dump.
Geavanceerd gebruik kan eventueel een callback gebruiken als parameter:
Sleutel is de kenmerknaam die wordt gebruikt in Python. Attr_desc is een dictaat van metagegevens. Bevat momenteel 'type' met het msrest-type en 'key' met de RestAPI-gecodeerde sleutel. Waarde is de huidige waarde in dit object.
De geretourneerde tekenreeks wordt gebruikt om de sleutel te serialiseren. Als het retourtype een lijst is, wordt dit beschouwd als hiërarchische resultaatdicteerfunctie.
Bekijk de drie voorbeelden in dit bestand:
attribute_transformer
full_restapi_key_transformer
last_restapi_key_transformer
Als u XML-serialisatie wilt, kunt u de kwargs-is_xml=True doorgeven.
as_dict(keep_readonly: bool = True, key_transformer: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Any], ~typing.Any], ~typing.Any] = <function attribute_transformer>, **kwargs: ~typing.Any) -> MutableMapping[str, Any]
Parameters
Name | Description |
---|---|
key_transformer
|
<xref:function>
Een sleuteltransformatorfunctie. |
keep_readonly
|
standaardwaarde: True
|
Retouren
Type | Description |
---|---|
Een dict JSON-compatibel object |
deserialize
Parseert een str met behulp van de RestAPI-syntaxis en retourneer een model.
deserialize(data: Any, content_type: str | None = None) -> ModelType
Parameters
Name | Description |
---|---|
data
Vereist
|
Een str met behulp van restAPI-structuur. JSON standaard. |
content_type
|
JSON stelt standaard toepassing/xml in als XML. standaardwaarde: None
|
Retouren
Type | Description |
---|---|
Een exemplaar van dit model |
Uitzonderingen
Type | Description |
---|---|
DeserializationError if something went wrong
|
enable_additional_properties_sending
enable_additional_properties_sending() -> None
from_dict
Een dicteren met behulp van de opgegeven sleutelextractor retourneert een model.
Houd standaard rekening met sleutelextracties (rest_key_case_insensitive_extractor, attribute_key_case_insensitive_extractor en last_rest_key_case_insensitive_extractor)
from_dict(data: Any, key_extractors: Callable[[str, Dict[str, Any], Any], Any] | None = None, content_type: str | None = None) -> ModelType
Parameters
Name | Description |
---|---|
data
Vereist
|
Een dicteerfunctie met restAPI-structuur |
content_type
|
JSON stelt standaard toepassing/xml in als XML. standaardwaarde: None
|
key_extractors
|
standaardwaarde: None
|
Retouren
Type | Description |
---|---|
Een exemplaar van dit model |
Uitzonderingen
Type | Description |
---|---|
DeserializationError if something went wrong
|
is_xml_model
is_xml_model() -> bool
serialize
Retourneer de JSON die vanuit dit model naar de server wordt verzonden.
Dit is een alias voor as_dict(full_restapi_key_transformer, keep_readonly=False).
Als u XML-serialisatie wilt, kunt u de kwargs-is_xml=True doorgeven.
serialize(keep_readonly: bool = False, **kwargs: Any) -> MutableMapping[str, Any]
Parameters
Name | Description |
---|---|
keep_readonly
|
Als u de alleen-lezen kenmerken wilt serialiseren standaardwaarde: False
|
Retouren
Type | Description |
---|---|
Een dict JSON-compatibel object |
Azure SDK for Python