Partilhar via


Indexar dados de arquivos e atalhos do OneLake

Neste artigo, saiba como configurar um indexador de arquivos OneLake para extrair dados pesquisáveis e metadados de uma casa de lago no topo do OneLake.

Para configurar e executar o indexador, você pode usar:

Este artigo usa as APIs REST para ilustrar cada etapa.

Pré-requisitos

Tarefas suportadas

Você pode usar esse indexador para as seguintes tarefas:

  • Indexação de dados e indexação incremental: o indexador pode indexar arquivos e metadados associados de caminhos de dados dentro de um lakehouse. Ele deteta arquivos e metadados novos e atualizados por meio da deteção de alterações integrada. Você pode configurar a atualização de dados em um cronograma ou sob demanda.
  • Deteção de exclusão: O indexador pode detetar exclusões por meio de metadados personalizados para a maioria dos arquivos e atalhos. Isso requer a adição de metadados aos arquivos para indicar que eles foram "excluídos suavemente", permitindo sua remoção do índice de pesquisa. Atualmente, não é possível detetar exclusões no Google Cloud Storage ou em arquivos de atalho do Amazon S3 porque os metadados personalizados não são compatíveis com essas fontes de dados.
  • IA aplicada através de conjuntos de habilidades: Os conjuntos de habilidades são totalmente suportados pelo indexador de arquivos OneLake. Isso inclui recursos importantes, como vetorização integrada que adiciona etapas de fragmentação e incorporação de dados.
  • Modos de análise: o indexador suporta modos de análise JSON se você quiser analisar matrizes ou linhas JSON em documentos de pesquisa individuais. Ele também suporta o modo de análise Markdown.
  • Compatibilidade com outros recursos: O indexador OneLake foi projetado para funcionar perfeitamente com outros recursos do indexador, como sessões de depuração, cache do indexador para enriquecimento incremental e armazenamento de conhecimento.

Formatos de documento suportados

O indexador de arquivos OneLake pode extrair texto dos seguintes formatos de documento:

  • CSV (consulte Indexação de blobs CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (consulte Indexação de blobs JSON)
  • KML (XML para representações geográficas)
  • Formatos do Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (e-mails do Outlook), XML (XML WORD de 2003 e 2006)
  • Formatos de documentos abertos: ODT, ODS, ODP
  • PDF
  • Arquivos de texto sem formatação (consulte também Indexação de texto sem formatação)
  • RTF
  • XML
  • CEP

Atalhos suportados

Os seguintes atalhos do OneLake são suportados pelo indexador de arquivos OneLake:

Limitações nesta pré-visualização

  • Atualmente, não há suporte para tipos de arquivo Parquet (incluindo delta parquet).

  • A exclusão de arquivos não é compatível com atalhos do Amazon S3 e do Google Cloud Storage.

  • Este indexador não suporta o conteúdo do local da tabela do espaço de trabalho OneLake.

  • Este indexador não suporta consultas SQL, mas a consulta usada na configuração da fonte de dados é exclusivamente para adicionar opcionalmente a pasta ou atalho para acessar.

  • Não há suporte para ingerir arquivos do espaço de trabalho Meu espaço de trabalho no OneLake, pois este é um repositório pessoal por usuário.

Preparar dados para indexação

Antes de configurar a indexação, revise os dados de origem para determinar se as alterações devem ser feitas antecipadamente. Um indexador pode indexar conteúdo de um contêiner de cada vez. Por padrão, todos os arquivos no contêiner são processados. Você tem várias opções para um processamento mais seletivo:

  • Coloque os arquivos em uma pasta virtual. Uma definição de fonte de dados indexadora inclui um parâmetro "query" que pode ser uma subpasta lakehouse ou atalho. Se esse valor for especificado, somente os arquivos na subpasta ou atalho dentro do lakehouse serão indexados.

  • Inclua ou exclua arquivos por tipo de arquivo. A lista de formatos de documentos suportados pode ajudá-lo a determinar quais arquivos devem ser excluídos. Por exemplo, talvez você queira excluir arquivos de imagem ou áudio que não forneçam texto pesquisável. Esta capacidade é controlada através de definições de configuração no indexador.

  • Inclua ou exclua ficheiros arbitrários. Se você quiser ignorar um arquivo específico por qualquer motivo, você pode adicionar propriedades e valores de metadados aos arquivos em sua casa do lago OneLake. Quando um indexador encontra essa propriedade, ele ignora o arquivo ou seu conteúdo na execução de indexação.

A inclusão e exclusão de arquivos é abordada na etapa de configuração do indexador. Se você não definir critérios, o indexador relatará um arquivo não qualificado como um erro e seguirá em frente. Se ocorrerem erros suficientes, o processamento pode parar. Você pode especificar tolerância a erros nas definições de configuração do indexador.

Um indexador normalmente cria um documento de pesquisa por arquivo, onde o conteúdo de texto e os metadados são capturados como campos pesquisáveis em um índice. Se os ficheiros forem ficheiros inteiros, pode analisá-los em vários documentos de pesquisa. Por exemplo, você pode analisar linhas em um arquivo CSV para criar um documento de pesquisa por linha. Se você precisar dividir um único documento em passagens menores para vetorizar dados, considere o uso de vetorização integrada.

Indexação de metadados de arquivos

Os metadados de arquivo também podem ser indexados, e isso é útil se você acha que qualquer uma das propriedades de metadados padrão ou personalizadas são úteis em filtros e consultas.

As propriedades de metadados especificadas pelo usuário são extraídas literalmente. Para receber os valores, você deve definir campo no índice de pesquisa do tipo Edm.String, com o mesmo nome da chave de metadados do blob. Por exemplo, se um blob tiver uma chave de metadados com valor High, você deve definir um campo nomeado Priority em seu índice de Priority pesquisa e ele será preenchido com o valor High.

As propriedades de metadados de arquivo padrão podem ser extraídas em campos com nomes e digitados de forma semelhante, conforme listado abaixo. O indexador de arquivos OneLake cria automaticamente mapeamentos de campo internos para essas propriedades de metadados, convertendo o nome hifenizado original ("metadata-storage-name") em um nome equivalente sublinhado ("metadata_storage_name").

Você ainda precisa adicionar os campos sublinhados à definição de índice, mas pode omitir mapeamentos de campo do indexador porque o indexador faz a associação automaticamente.

  • metadata_storage_name (Edm.String) - o nome do arquivo. Por exemplo, se você tiver um arquivo /mydatalake/my-folder/subfolder/resume.pdf, o valor desse campo será resume.pdf.

  • metadata_storage_path (Edm.String) - o URI completo do blob, incluindo a conta de armazenamento. Por exemplo, https://myaccount.blob.core.windows.net/my-container/my-folder/subfolder/resume.pdf

  • metadata_storage_content_type (Edm.String) - tipo de conteúdo conforme especificado pelo código usado para carregar o blob. Por exemplo, application/octet-stream.

  • metadata_storage_last_modified (Edm.DateTimeOffset) - carimbo de data/hora modificado pela última vez para o blob. O Azure AI Search usa esse carimbo de data/hora para identificar blobs alterados, para evitar a reindexação de tudo após a indexação inicial.

  • metadata_storage_size (Edm.Int64) - tamanho do blob em bytes.

  • metadata_storage_content_md5 (Edm.String) - hash MD5 do conteúdo do blob, se disponível.

Por fim, quaisquer propriedades de metadados específicas para o formato de documento dos arquivos que você está indexando também podem ser representadas no esquema de índice. Para obter mais informações sobre metadados específicos de conteúdo, consulte Propriedades de metadados de conteúdo.

É importante salientar que você não precisa definir campos para todas as propriedades acima em seu índice de pesquisa - basta capturar as propriedades necessárias para seu aplicativo.

Conceder permissões

O indexador OneLake usa autenticação de token e acesso baseado em função para conexões com o OneLake. As permissões são atribuídas no OneLake. Não há requisitos de permissão nos armazenamentos de dados físicos que dão suporte aos atalhos. Por exemplo, se você estiver indexando da AWS, não precisará conceder permissões de serviço de pesquisa na AWS.

A atribuição de função mínima para sua identidade de serviço de pesquisa é Colaborador.

  1. Configure um sistema ou identidade gerenciada pelo usuário para seu serviço AI Search.

    A captura de tela a seguir mostra uma identidade gerenciada pelo sistema para um serviço de pesquisa chamado "onelake-demo".

    Captura de ecrã a mostrar uma identidade do sistema de serviço de pesquisa no portal do Azure.

    Esta captura de tela mostra uma identidade gerenciada pelo usuário para o mesmo serviço de pesquisa.

    Captura de ecrã a mostrar uma identidade gerida atribuída pelo utilizador ao serviço de pesquisa no portal do Azure.

  2. Conceda permissão para acesso ao serviço de pesquisa ao espaço de trabalho Malha. O serviço de pesquisa faz a conexão em nome do indexador.

    Se você usa uma identidade gerenciada atribuída ao sistema, procure o nome do serviço AI Search. Para uma identidade gerenciada atribuída pelo usuário, procure o nome do recurso de identidade.

    A captura de tela a seguir mostra uma atribuição de função de Colaborador usando uma identidade gerenciada pelo sistema.

    Captura de ecrã a mostrar uma atribuição de função de Colaborador para uma identidade do sistema de serviço de pesquisa no portal do Azure.

    Esta captura de tela mostra uma atribuição de função de Colaborador usando uma identidade gerenciada pelo sistema:

    Captura de ecrã a mostrar uma atribuição de função de Colaborador para uma identidade gerida atribuída pelo utilizador ao serviço de pesquisa no portal do Azure.

Definir a fonte de dados

Uma fonte de dados é definida como um recurso independente para que possa ser usada por vários indexadores. Você deve usar a API REST 2024-05-01-preview para criar a fonte de dados.

  1. Use a API REST Criar ou atualizar uma fonte de dados para definir sua definição. Estas são as etapas mais significativas da definição.

  2. Defina "type" como "onelake" (obrigatório).

  3. Obtenha o GUID do espaço de trabalho do Microsoft Fabric e o GUID lakehouse:

    • Vá para a casa do lago que você gostaria de importar dados de sua URL. Deve ser semelhante a este exemplo: "https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=power-bi". Copie os seguintes valores usados na definição da fonte de dados:

    • Copie o GUID do espaço de trabalho, que chamaremos {FabricWorkspaceGuid}de , que é listado logo após "grupos" no URL. Neste exemplo, seria 00000000-0000-0000-0000-0000000000000.

      Captura de tela do GUID do espaço de trabalho Malha no portal do Azure.

    • Copie o GUID lakehouse que chamaremos {lakehouseGuid}de , que está listado logo após "lakehouses" no URL. Neste exemplo, seria 11111111-1111-1111-1111-1111111111111.

      Captura de ecrã do GUID lakehouse no portal do Azure.

  4. Defina "credentials" como o GUID do espaço de trabalho Microsoft Fabric substituindo {FabricWorkspaceGuid} pelo valor copiado na etapa anterior. Este é o OneLake para acessar com a identidade gerenciada que você configurará mais adiante neste guia.

    "credentials": {  
    "connectionString": "ResourceId={FabricWorkspaceGuid}"  
    }
    
  5. Defina "container.name" como o GUID lakehouse, substituindo {lakehouseGuid} pelo valor copiado na etapa anterior. Use "query" para especificar opcionalmente uma subpasta ou atalho lakehouse.

      "container": {  
        "name": "{lakehouseGuid}",  
        "query": "{optionalLakehouseFolderOrShortcut}"  
      }
    
  6. Defina o método de autenticação usando a identidade gerenciada atribuída pelo usuário ou pule para a próxima etapa de identidade gerenciada pelo sistema.

    {    
      "name": "{dataSourceName}",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId={FabricWorkspaceGuid}"  
      },  
      "container": {  
        "name": "{lakehouseGuid}",  
        "query": "{optionalLakehouseFolderOrShortcut}"  
      },  
      "identity": {  
        "@odata.type": "Microsoft.Azure.Search.DataUserAssignedIdentity",  
        "userAssignedIdentity": "{userAssignedManagedIdentity}"  
      }  
    }
    

    O userAssignedIdentity valor pode ser encontrado acessando o {userAssignedManagedIdentity} recurso, em Propriedades e é chamado Idde .

    Captura de ecrã da propriedade ID de identidade atribuída ao utilizador.

    Exemplo:

    {    
      "name": "mydatasource",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId=a0a0a0a0-bbbb-cccc-dddd-e1e1e1e1e1e1"  
      },  
      "container": {  
        "name": "11111111-1111-1111-1111-111111111111",  
        "query": "folder_name"  
      },  
      "identity": {  
        "@odata.type": "Microsoft.Azure.Search.DataUserAssignedIdentity",  
        "userAssignedIdentity": "/subscriptions/333333-3333-3333-3333-33333333/resourcegroups/myresourcegroup/providers/Microsoft.ManagedIdentity/userAssignedIdentities/demo-mi"  
      }  
    }
    
  7. Opcionalmente, use uma identidade gerenciada atribuída ao sistema. A "identidade" é removida da definição se estiver usando a identidade gerenciada atribuída ao sistema.

    {    
      "name": "{dataSourceName}",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId={FabricWorkspaceGuid}"  
      },  
      "container": {  
        "name": "{lakehouseGuid}",  
        "query": "{optionalLakehouseFolderOrShortcut}"  
      }  
    }
    

    Exemplo:

    {    
      "name": "mydatasource",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId=a0a0a0a0-bbbb-cccc-dddd-e1e1e1e1e1e1"  
      },  
      "container": {  
        "name": "11111111-1111-1111-1111-111111111111",  
        "query": "folder_name"  
      }
    } 
    

Detetar exclusões por meio de metadados personalizados

A definição da fonte de dados do indexador de arquivos OneLake pode incluir uma política de exclusão suave se você quiser que o indexador exclua um documento de pesquisa quando o documento de origem for sinalizado para exclusão.

Para habilitar a exclusão automática de arquivos, use metadados personalizados para indicar se um documento de pesquisa deve ser removido do índice.

O fluxo de trabalho requer três ações separadas:

  • "Soft-delete" o arquivo no OneLake
  • O indexador exclui o documento de pesquisa no índice
  • "Hard delete" o arquivo no OneLake

"Soft-deleting" diz ao indexador o que fazer (excluir o documento de pesquisa). Se você excluir o arquivo físico no OneLake primeiro, não haverá nada para o indexador ler e o documento de pesquisa correspondente no índice ficará órfão.

Há etapas a serem seguidas no OneLake e no Azure AI Search, mas não há outras dependências de recursos.

  1. No arquivo lakehouse, adicione um par chave-valor de metadados personalizados ao arquivo para indicar que o arquivo está sinalizado para exclusão. Por exemplo, você pode nomear a propriedade "IsDeleted", definida como false. Quando quiser excluir o arquivo, altere-o para true.

    Captura de ecrã de um ficheiro com metadados personalizados para IsDeleted.

  2. No Azure AI Search, edite a definição da fonte de dados para incluir uma propriedade "dataDeletionDetectionPolicy". Por exemplo, a política a seguir considera um arquivo a ser excluído se ele tiver uma propriedade de metadados "IsDeleted" com o valor true:

    PUT https://[service name].search.windows.net/datasources/file-datasource?api-version=2024-05-01-preview
    {
        "name" : "onelake-datasource",
        "type" : "onelake",
         "credentials": {  
            "connectionString": "ResourceId={FabricWorkspaceGuid}"  
        },  
        "container": {  
            "name": "{lakehouseGuid}",  
            "query": "{optionalLakehouseFolderOrShortcut}"  
        },  
        "dataDeletionDetectionPolicy" : {
            "@odata.type" :"#Microsoft.Azure.Search.SoftDeleteColumnDeletionDetectionPolicy",
            "softDeleteColumnName" : "IsDeleted",
            "softDeleteMarkerValue" : "true"
        }
    }
    

Depois que o indexador for executado e excluir o documento do índice de pesquisa, você poderá excluir o arquivo físico no data lake.

Alguns pontos-chave incluem:

  • Agendar uma execução de indexador ajuda a automatizar esse processo. Recomendamos agendamentos para todos os cenários de indexação incremental.

  • Se a política de deteção de exclusão não tiver sido definida na primeira execução do indexador, você deverá redefinir o indexador para que ele leia a configuração atualizada.

  • Lembre-se de que a deteção de exclusão não é compatível com atalhos do Amazon S3 e do Google Cloud Storage devido à dependência de metadados personalizados.

Adicionar campos de pesquisa a um índice

Em um índice de pesquisa, adicione campos para aceitar o conteúdo e os metadados dos arquivos do data lake do OneLake.

  1. Crie ou atualize um índice para definir campos de pesquisa que armazenam conteúdo e metadados de arquivos:

    {
        "name" : "my-search-index",
        "fields": [
            { "name": "ID", "type": "Edm.String", "key": true, "searchable": false },
            { "name": "content", "type": "Edm.String", "searchable": true, "filterable": false },
            { "name": "metadata_storage_name", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true  },
            { "name": "metadata_storage_size", "type": "Edm.Int64", "searchable": false, "filterable": true, "sortable": true  },
            { "name": "metadata_storage_content_type", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true }     
        ]
    }
    
  2. Crie um campo de chave de documento ("chave": true). Para o conteúdo do arquivo, os melhores candidatos são as propriedades de metadados.

    • metadata_storage_path (padrão) caminho completo para o objeto ou arquivo. O campo chave ("ID" neste exemplo) é preenchido com valores de metadata_storage_path porque é o padrão.

    • metadata_storage_name, utilizável apenas se os nomes forem exclusivos. Se pretender que este campo seja a chave, avance "key": true para esta definição de campo.

    • Uma propriedade de metadados personalizada que você adiciona aos seus arquivos. Essa opção requer que o processo de upload de arquivos adicione essa propriedade de metadados a todos os blobs. Como a chave é uma propriedade necessária, todos os arquivos que estão faltando um valor não são indexados. Se você usar uma propriedade de metadados personalizada como uma chave, evite fazer alterações nessa propriedade. Os indexadores adicionam documentos duplicados para o mesmo arquivo se a propriedade da chave for alterada.

    As propriedades de metadados geralmente incluem caracteres, como / e -, que são inválidos para chaves de documento. Como o indexador tem uma propriedade "base64EncodeKeys" (true por padrão), ele codifica automaticamente a propriedade de metadados, sem necessidade de configuração ou mapeamento de campo.

  3. Adicione um campo "content" para armazenar o texto extraído de cada arquivo através da propriedade "content" do arquivo. Você não é obrigado a usar esse nome, mas isso permite que você aproveite os mapeamentos de campo implícitos.

  4. Adicione campos para propriedades de metadados padrão. O indexador pode ler propriedades de metadados personalizados, propriedades de metadados padrão e propriedades de metadados específicos de conteúdo.

Configurar e executar o indexador de arquivos OneLake

Depois que o índice e a fonte de dados forem criados, você estará pronto para criar o indexador. A configuração do indexador especifica as entradas, parâmetros e propriedades que controlam os comportamentos de tempo de execução. Você também pode especificar quais partes de um blob devem ser indexadas.

  1. Crie ou atualize um indexador dando-lhe um nome e fazendo referência à fonte de dados e ao índice de destino:

    {
      "name" : "my-onelake-indexer",
      "dataSourceName" : "my-onelake-datasource",
      "targetIndexName" : "my-search-index",
      "parameters": {
          "batchSize": null,
          "maxFailedItems": null,
          "maxFailedItemsPerBatch": null,
          "base64EncodeKeys": null,
          "configuration": {
              "indexedFileNameExtensions" : ".pdf,.docx",
              "excludedFileNameExtensions" : ".png,.jpeg",
              "dataToExtract": "contentAndMetadata",
              "parsingMode": "default"
          }
      },
      "schedule" : { },
      "fieldMappings" : [ ]
    }
    
  2. Defina "batchSize" se o padrão (10 documentos) estiver subutilizando ou sobrecarregando os recursos disponíveis. Os tamanhos de lote padrão são específicos da fonte de dados. A indexação de arquivos define o tamanho do lote em 10 documentos em reconhecimento ao tamanho médio maior do documento.

  3. Em "configuração", controle quais arquivos são indexados com base no tipo de arquivo ou deixe não especificado para recuperar todos os arquivos.

    Para "indexedFileNameExtensions", forneça uma lista separada por vírgulas de extensões de arquivo (com um ponto à esquerda). Faça o mesmo para "excludedFileNameExtensions" indicar quais extensões devem ser ignoradas. Se a mesma extensão estiver em ambas as listas, ela será excluída da indexação.

  4. Em "configuration", defina "dataToExtract" para controlar quais partes dos arquivos são indexadas:

    • "contentAndMetadata" é o padrão. Ele especifica que todos os metadados e conteúdo textual extraído do arquivo são indexados.

    • "storageMetadata" especifica que apenas as propriedades de arquivo padrão e os metadados especificados pelo usuário são indexados. Embora as propriedades estejam documentadas para blobs do Azure, as propriedades do arquivo são as mesmas para OneLkae, exceto para os metadados relacionados ao SAS.

    • "allMetadata" especifica que as propriedades de arquivo padrão e quaisquer metadados para tipos de conteúdo encontrados são extraídos do conteúdo do arquivo e indexados.

  5. Em "configuração", defina "parsingMode" se os arquivos devem ser mapeados para vários documentos de pesquisa ou se consistem em texto simples, documentos JSON ou arquivos CSV.

  6. Especifique mapeamentos de campo se houver diferenças no nome ou tipo de campo ou se precisar de várias versões de um campo de origem no índice de pesquisa.

    Na indexação de arquivos, muitas vezes você pode omitir mapeamentos de campo porque o indexador tem suporte interno para mapear as propriedades de "conteúdo" e metadados para campos com nomes e digitados de forma semelhante em um índice. Para propriedades de metadados, o indexador substitui automaticamente hífenes - com sublinhados no índice de pesquisa.

Para obter mais informações sobre outras propriedades, crie um indexador. Para obter a lista completa de descrições de parâmetros, consulte Criar indexador (REST) na API REST. Os parâmetros são os mesmos para OneLake.

Por padrão, um indexador é executado automaticamente quando você o cria. Você pode alterar esse comportamento definindo "disabled" como true. Para controlar a execução do indexador, execute um indexador sob demanda ou coloque-o em uma programação.

Verificar o estado do indexador

Aprenda várias abordagens para monitorar o status do indexador e o histórico de execução aqui.

Processar erros

Os erros que normalmente ocorrem durante a indexação incluem tipos de conteúdo sem suporte, conteúdo ausente ou arquivos superdimensionados. Por padrão, o indexador de arquivos OneLake para assim que encontra um arquivo com um tipo de conteúdo sem suporte. No entanto, convém que a indexação prossiga mesmo se ocorrerem erros e, em seguida, depure documentos individuais mais tarde.

Erros transitórios são comuns para soluções que envolvem várias plataformas e produtos. No entanto, se você mantiver o indexador em um cronograma (por exemplo, a cada 5 minutos), o indexador deverá ser capaz de se recuperar desses erros na execução seguinte.

Há cinco propriedades do indexador que controlam a resposta do indexador quando ocorrem erros.

{
  "parameters" : { 
    "maxFailedItems" : 10, 
    "maxFailedItemsPerBatch" : 10,
    "configuration" : { 
        "failOnUnsupportedContentType" : false, 
        "failOnUnprocessableDocument" : false,
        "indexStorageMetadataOnlyForOversizedDocuments": false
    }
  }
}
Parâmetro Valores válidos Description
"maxFailedItems" -1, nulo ou 0, inteiro positivo Continue a indexação se ocorrerem erros em qualquer ponto do processamento, seja ao analisar blobs ou ao adicionar documentos a um índice. Defina essas propriedades para o número de falhas aceitáveis. Um valor de -1 permite o processamento, não importa quantos erros ocorram. Caso contrário, o valor é um inteiro positivo.
"maxFailedItemsPerBatch" -1, nulo ou 0, inteiro positivo O mesmo que acima, mas usado para indexação em lote.
"failOnUnsupportedContentType" verdadeiro ou falso Se o indexador não conseguir determinar o tipo de conteúdo, especifique se deseja continuar ou falhar o trabalho.
"failOnUnprocessableDocument" verdadeiro ou falso Se o indexador não conseguir processar um documento de um tipo de conteúdo suportado de outra forma, especifique se deseja continuar ou falhar o trabalho.
"indexStorageMetadataOnlyForOversizedDocuments" verdadeiro ou falso Blobs superdimensionados são tratados como erros por padrão. Se você definir esse parâmetro como true, o indexador tentará indexar seus metadados mesmo que o conteúdo não possa ser indexado. Para limites no tamanho do blob, consulte Limites do serviço.

Próximos passos

Analise como o assistente Importar e vetorizar dados funciona e experimente-o para este indexador. Você pode usar vetorização integrada para fragmentar e criar incorporações para pesquisa vetorial ou híbrida usando um esquema padrão.