Udostępnij za pośrednictwem


IndexingParametersConfiguration interface

Słownik właściwości konfiguracji specyficznych dla indeksatora. Każda nazwa to nazwa określonej właściwości. Każda wartość musi być typu pierwotnego.

Właściwości

allowSkillsetToReadFileData

Jeśli wartość true, spowoduje utworzenie ścieżki //document//file_data, która jest obiektem reprezentującym oryginalne dane pliku pobrane ze źródła danych obiektu blob. Dzięki temu można przekazać oryginalne dane plików do niestandardowej umiejętności przetwarzania w potoku wzbogacania lub do umiejętności wyodrębniania dokumentów.

dataToExtract

Określa dane do wyodrębnienia z usługi Azure Blob Storage i informuje indeksator, które dane mają być wyodrębnione z zawartości obrazu, gdy wartość "imageAction" jest ustawiona na wartość inną niż "none". Dotyczy to zawartości obrazu osadzonego w .PDF lub innych aplikacjach albo plikach obrazów, takich jak .jpg i .png, w obiektach blob platformy Azure.

delimitedTextDelimiter

W przypadku obiektów blob CSV określa ogranicznik jednoznaczny końca wiersza dla plików CSV, w których każdy wiersz uruchamia nowy dokument (na przykład "|").

delimitedTextHeaders

W przypadku obiektów blob CSV określa rozdzielaną przecinkami listę nagłówków kolumn, co jest przydatne w przypadku mapowania pól źródłowych na pola docelowe w indeksie.

documentRoot

W przypadku tablic JSON, biorąc pod uwagę ustrukturyzowany lub częściowo ustrukturyzowany dokument, można określić ścieżkę do tablicy przy użyciu tej właściwości.

excludedFileNameExtensions

Rozdzielana przecinkami lista rozszerzeń nazw plików do ignorowania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład wykluczyć element ".png, .mp4", aby pominąć te pliki podczas indeksowania.

executionEnvironment

Określa środowisko, w którym indeksator powinien być wykonywany.

failOnUnprocessableDocument

W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie, jeśli indeksowanie dokumentu zakończy się niepowodzeniem.

failOnUnsupportedContentType

W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie w przypadku napotkania nieobsługiwanego typu zawartości i nie znasz z wyprzedzeniem wszystkich typów zawartości (rozszerzeń plików).

firstLineContainsHeaders

W przypadku obiektów blob CSV wskazuje, że pierwszy (niepusty) wiersz każdego obiektu blob zawiera nagłówki.

imageAction

Określa sposób przetwarzania osadzonych obrazów i plików obrazów w usłudze Azure Blob Storage. Ustawienie konfiguracji "imageAction" na dowolną wartość inną niż "none" wymaga również dołączenia zestawu umiejętności do tego indeksatora.

indexedFileNameExtensions

Rozdzielana przecinkami lista rozszerzeń nazw plików do wybrania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład skoncentrować się na indeksowaniu określonych plików aplikacji ".docx, .pptx, .msg", aby uwzględnić te typy plików.

indexStorageMetadataOnlyForOversizedDocuments

W przypadku obiektów blob platformy Azure ustaw tę właściwość na wartość true, aby nadal indeksować metadane magazynu dla zawartości obiektów blob, która jest zbyt duża do przetworzenia. Oversized blobs są domyślnie traktowane jako błędy. Aby uzyskać informacje o limitach dotyczących rozmiaru obiektu blob, zobacz https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

parsingMode

Reprezentuje tryb analizowania indeksowania ze źródła danych obiektu blob platformy Azure.

pdfTextRotationAlgorithm

Określa algorytm wyodrębniania tekstu z plików PDF w usłudze Azure Blob Storage.

queryTimeout

Zwiększa limit czasu poza 5-minutową wartością domyślną dla źródeł danych usługi Azure SQL Database określonym w formacie "hh:mm:ss".

Szczegóły właściwości

allowSkillsetToReadFileData

Jeśli wartość true, spowoduje utworzenie ścieżki //document//file_data, która jest obiektem reprezentującym oryginalne dane pliku pobrane ze źródła danych obiektu blob. Dzięki temu można przekazać oryginalne dane plików do niestandardowej umiejętności przetwarzania w potoku wzbogacania lub do umiejętności wyodrębniania dokumentów.

allowSkillsetToReadFileData?: boolean

Wartość właściwości

boolean

dataToExtract

Określa dane do wyodrębnienia z usługi Azure Blob Storage i informuje indeksator, które dane mają być wyodrębnione z zawartości obrazu, gdy wartość "imageAction" jest ustawiona na wartość inną niż "none". Dotyczy to zawartości obrazu osadzonego w .PDF lub innych aplikacjach albo plikach obrazów, takich jak .jpg i .png, w obiektach blob platformy Azure.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Wartość właściwości

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

W przypadku obiektów blob CSV określa ogranicznik jednoznaczny końca wiersza dla plików CSV, w których każdy wiersz uruchamia nowy dokument (na przykład "|").

delimitedTextDelimiter?: string

Wartość właściwości

string

delimitedTextHeaders

W przypadku obiektów blob CSV określa rozdzielaną przecinkami listę nagłówków kolumn, co jest przydatne w przypadku mapowania pól źródłowych na pola docelowe w indeksie.

delimitedTextHeaders?: string

Wartość właściwości

string

documentRoot

W przypadku tablic JSON, biorąc pod uwagę ustrukturyzowany lub częściowo ustrukturyzowany dokument, można określić ścieżkę do tablicy przy użyciu tej właściwości.

documentRoot?: string

Wartość właściwości

string

excludedFileNameExtensions

Rozdzielana przecinkami lista rozszerzeń nazw plików do ignorowania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład wykluczyć element ".png, .mp4", aby pominąć te pliki podczas indeksowania.

excludedFileNameExtensions?: string

Wartość właściwości

string

executionEnvironment

Określa środowisko, w którym indeksator powinien być wykonywany.

executionEnvironment?: "standard" | "private"

Wartość właściwości

"standard" | "private"

failOnUnprocessableDocument

W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie, jeśli indeksowanie dokumentu zakończy się niepowodzeniem.

failOnUnprocessableDocument?: boolean

Wartość właściwości

boolean

failOnUnsupportedContentType

W przypadku obiektów blob platformy Azure ustaw wartość false, jeśli chcesz kontynuować indeksowanie w przypadku napotkania nieobsługiwanego typu zawartości i nie znasz z wyprzedzeniem wszystkich typów zawartości (rozszerzeń plików).

failOnUnsupportedContentType?: boolean

Wartość właściwości

boolean

firstLineContainsHeaders

W przypadku obiektów blob CSV wskazuje, że pierwszy (niepusty) wiersz każdego obiektu blob zawiera nagłówki.

firstLineContainsHeaders?: boolean

Wartość właściwości

boolean

imageAction

Określa sposób przetwarzania osadzonych obrazów i plików obrazów w usłudze Azure Blob Storage. Ustawienie konfiguracji "imageAction" na dowolną wartość inną niż "none" wymaga również dołączenia zestawu umiejętności do tego indeksatora.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Wartość właściwości

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Rozdzielana przecinkami lista rozszerzeń nazw plików do wybrania podczas przetwarzania z usługi Azure Blob Storage. Można na przykład skoncentrować się na indeksowaniu określonych plików aplikacji ".docx, .pptx, .msg", aby uwzględnić te typy plików.

indexedFileNameExtensions?: string

Wartość właściwości

string

indexStorageMetadataOnlyForOversizedDocuments

W przypadku obiektów blob platformy Azure ustaw tę właściwość na wartość true, aby nadal indeksować metadane magazynu dla zawartości obiektów blob, która jest zbyt duża do przetworzenia. Oversized blobs są domyślnie traktowane jako błędy. Aby uzyskać informacje o limitach dotyczących rozmiaru obiektu blob, zobacz https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Wartość właściwości

boolean

parsingMode

Reprezentuje tryb analizowania indeksowania ze źródła danych obiektu blob platformy Azure.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

Wartość właściwości

"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

pdfTextRotationAlgorithm

Określa algorytm wyodrębniania tekstu z plików PDF w usłudze Azure Blob Storage.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Wartość właściwości

"none" | "detectAngles"

queryTimeout

Zwiększa limit czasu poza 5-minutową wartością domyślną dla źródeł danych usługi Azure SQL Database określonym w formacie "hh:mm:ss".

queryTimeout?: string

Wartość właściwości

string