Compartilhar via


Criar e treinar um modelo generativo com o Estúdio de IA

Neste artigo, aprenda a criar e treinar um modelo generativo personalizado com o Estúdio de IA do Azure. Os modelos personalizados da Informação de Documentos exigem apenas cinco documentos de treinamento para começar. Você tem pelo menos cinco documentos? Caso tenha, vamos começar a treinar e testar o modelo generativo personalizado.

Pré-requisitos

  • Você precisa de uma assinatura ativa do Azure. Se você não tem uma assinatura do Azure, pode criar uma gratuita.

  • Uma vez que você tenha uma assinatura do Azure, você precisará de uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (F0) para experimentar o serviço.

  • Após a implantação do recurso, selecione Ir para o recurso para recuperar a chave e o ponto de extremidade.

    • Você precisará da chave e do ponto de extremidade do recurso para conectar seu aplicativo ao serviço de Informação de Documentos. Você vai colar a chave e o ponto de extremidade no código mais adiante no guia de início rápido. Você pode encontrar esses valores na página Chaves e ponto de extremidade do portal do Azure.

Autorização de contêiner de armazenamento

Você pode escolher uma das opções a seguir para autorizar o acesso ao seu recurso de Informação de Documentos.

✔️Identidade Gerenciada. Uma identidade gerenciada é uma entidade de serviço que cria uma identidade do Microsoft Entra e permissões específicas para um recurso gerenciado do Azure. As identidades gerenciadas permitem que você execute seu aplicativo de Informação de Documentos sem precisar inserir credenciais em seu código. As identidades gerenciadas são uma maneira mais segura de conceder acesso aos dados de armazenamento e substituem o requisito de incluir tokens de assinatura de acesso compartilhado (SAS) pelas suas URLs de origem e de resultado.

Para saber mais, confiraIdentidades gerenciadas para a Informação de Documentos.

Captura de tela do fluxo de identidade gerenciada (controle de acesso baseado em função).

Importante

  • Ao usar identidades gerenciadas, não inclua uma URL de token SAS com suas solicitações HTTP. Elas falharão. O uso de identidades gerenciadas substitui o requisito de incluir tokens de assinatura de acesso compartilhado (SAS). ✔️Uma SAS (Assinatura de Acesso Compartilhado). Uma assinatura de acesso compartilhado é uma URL que concede acesso restrito por um período de tempo especificado ao seu serviço de Informação de Documentos. Para usar esse método, você precisa criar tokens de SAS (Assinatura de Acesso Compartilhado) para seus contêineres de origem e de resultado. Os contêineres de origem e de resultado devem incluir um token de Assinatura de Acesso Compartilhado (SAS), acrescentado como uma cadeia de caracteres de consulta. O token pode ser atribuído ao contêiner ou a blobs específicos.

Captura de tela do URI de armazenamento com token SAS anexado.

  • Seu contêiner ou blob de origem deve designar os acessos de leitura, gravação, lista e exclusão.
  • Seu contêiner ou blob de resultados deve designar os acessos de gravação, lista e exclusão.

Para saber mais, confira Criar tokens de SAS.

Dados de treinamento

Siga estas dicas para otimizar seu conjunto de dados para treinamento:

  • Use documentos PDF de texto em vez de documentos baseados em imagem. Os PDFs digitalizados são tratados como imagens.

  • Use exemplos que tenham todos os campos concluídos para formulários com campos de entrada.

  • Use os formulários com diferentes valores em cada campo.

  • Use um conjunto de dados maior (10 a 15 imagens) se as imagens do formulário forem de qualidade inferior.

Uma vez que você tenha seus contêineres de armazenamento de blobs do Azure, carregue seus dados de treinamento em seus contêineres de origem. Agora você está pronto para treinar seu modelo generativo personalizado.

Estúdio de IA do Azure

  1. Navegue até o Estúdio de IA do Azure. Na primeira vez que usar o Estúdio, você precisará inicializar sua assinatura e criar um hub antes de criar um projeto. Modelos generativos personalizados estão disponíveis apenas no Leste dos EUA e no Centro-Norte dos EUA em versão prévia. Certifique-se de que seu grupo de recursos está definido para Leste dos EUA ou Centro-Norte dos EUA durante a criação do hub.

  2. Selecione o bloco Visão + Documento.

    Captura de tela do bloco de informação/visão de documentos.

  3. Em seguida, selecione o bloco de Extração de campo de documento e selecione o botão Criar projeto de extração de campo de documento para criar um projeto.

    Captura de tela da página criar projeto de extração de campo de documento.

  4. Crie seu projeto. Para obter mais informações, consulte Criar um projeto no Estúdio de IA do Azure.

  5. Crie uma conexão dos serviços de IA do Azure para acessar o serviço de Informação de Documentos do Azure:

    Captura de tela da página de visão geral do projeto de extração de documentos.

  6. Em seguida, selecione a conta de armazenamento que você usou para carregar seu conjunto de dados de treinamento de modelo personalizado.

    Captura de tela da página de configurações de dados do projeto de extração de documentos.

  7. Examine as configurações do projeto e selecione Create a Project para criar um novo projeto. Depois de selecionar no projeto, agora você deverá estar na janela Define schema e ver os arquivos em seu conjunto de dados listados.

Definir o esquema

  • Para seu projeto, a primeira tarefa é adicionar os campos a serem extraídos e definir um esquema.

  • Os arquivos carregados estão listados e você pode usar a opção suspensa para selecionar arquivos. Você pode começar a adicionar campos clicando no botão ➕ Add new field.

  • Insira um nome, uma descrição e um tipo para o campo a ser extraído. Depois que todos os campos forem adicionados, selecione o botão Save na parte inferior da tela.

Dados do rótulo

  • Depois que o esquema for salvo, todos os documentos de treinamento carregados são analisados e os valores dos campos são extraídos automaticamente. Os valores dos campos são listados na tela para revisão. Os campos extraídos automaticamente são rotulados como Previstos.

  • Examine os valores previstos. Se o valor do campo estiver incorreto ou não foi extraído, você poderá passar o mouse sobre o campo previsto. Selecione o botão editar para fazer as alterações:

    Captura de tela do botão de edição do projeto de extração.

  • Depois que a alteração for feita, o rótulo Previsto mudará para Corrected:

    Captura de tela do indicador corrigido do projeto de extração.

  • Continue revisando os campos previstos. Depois que os rótulos forem revisados e corrigidos para todos os documentos de treinamento, prossiga para criar seu modelo.

    Observação

    Você sempre pode voltar e atualizar o esquema durante o treinamento do modelo, mas, para usar a funcionalidade de rótulo automático, você precisa excluir e recarregar os arquivos usando a opção Upload files.

Criar seu modelo

Com o seu conjunto de dados rotulado, agora você está pronto para treinar seu modelo. Selecione o Build model. Na página da caixa de diálogo Criar modelo, forneça um nome de modelo exclusivo e, opcionalmente, uma descrição. O modelID aceita um tipo de dados de cadeia de caracteres.

Captura de tela da página criar um modelo de extração.

Selecione Build para iniciar o processo de treinamento. Modelos generativos treinam instantaneamente! Atualize a página para selecionar o modelo depois que o status for alterado para bem-sucedido.

Testar o modelo

  • Depois que o treinamento de modelo for concluído, você poderá testar seu modelo selecionando o botão Test na página CustomGenerative.

    Captura de tela da página CustomGenerative.

  • Carregue seus arquivos de teste e selecione Run Analysis para extrair valores de campos de documentos. Com a opção Analyze, você pode optar por executar e analisar no documento atual ou em todos os documentos.

  • Valide seu modelo avaliando os resultados de cada campo.

É isso! Você aprendeu a treinar um modelo generativo personalizado no Estúdio de IA do Azure. Seu modelo está pronto para uso com a API REST ou o SDK para analisar documentos.

Próximas etapas

Saiba mais sobre o modelo generativo personalizado

Saiba mais sobre a precisão e a confiança do modelo personalizado