Criar e treinar um modelo generativo com o Estúdio de IA
Neste artigo, aprenda a criar e treinar um modelo generativo personalizado com o Estúdio de IA do Azure. Os modelos personalizados da Informação de Documentos exigem apenas cinco documentos de treinamento para começar. Você tem pelo menos cinco documentos? Caso tenha, vamos começar a treinar e testar o modelo generativo personalizado.
Pré-requisitos
Você precisa de uma assinatura ativa do Azure. Se você não tem uma assinatura do Azure, pode criar uma gratuita.
Uma vez que você tenha uma assinatura do Azure, você precisará de uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (
F0
) para experimentar o serviço.Após a implantação do recurso, selecione Ir para o recurso para recuperar a chave e o ponto de extremidade.
- Você precisará da chave e do ponto de extremidade do recurso para conectar seu aplicativo ao serviço de Informação de Documentos. Você vai colar a chave e o ponto de extremidade no código mais adiante no guia de início rápido. Você pode encontrar esses valores na página Chaves e ponto de extremidade do portal do Azure.
Autorização de contêiner de armazenamento
Você pode escolher uma das opções a seguir para autorizar o acesso ao seu recurso de Informação de Documentos.
✔️Identidade Gerenciada. Uma identidade gerenciada é uma entidade de serviço que cria uma identidade do Microsoft Entra e permissões específicas para um recurso gerenciado do Azure. As identidades gerenciadas permitem que você execute seu aplicativo de Informação de Documentos sem precisar inserir credenciais em seu código. As identidades gerenciadas são uma maneira mais segura de conceder acesso aos dados de armazenamento e substituem o requisito de incluir tokens de assinatura de acesso compartilhado (SAS) pelas suas URLs de origem e de resultado.
Para saber mais, confiraIdentidades gerenciadas para a Informação de Documentos.
Importante
- Ao usar identidades gerenciadas, não inclua uma URL de token SAS com suas solicitações HTTP. Elas falharão. O uso de identidades gerenciadas substitui o requisito de incluir tokens de assinatura de acesso compartilhado (SAS). ✔️Uma SAS (Assinatura de Acesso Compartilhado). Uma assinatura de acesso compartilhado é uma URL que concede acesso restrito por um período de tempo especificado ao seu serviço de Informação de Documentos. Para usar esse método, você precisa criar tokens de SAS (Assinatura de Acesso Compartilhado) para seus contêineres de origem e de resultado. Os contêineres de origem e de resultado devem incluir um token de Assinatura de Acesso Compartilhado (SAS), acrescentado como uma cadeia de caracteres de consulta. O token pode ser atribuído ao contêiner ou a blobs específicos.
- Seu contêiner ou blob de origem deve designar os acessos de leitura, gravação, lista e exclusão.
- Seu contêiner ou blob de resultados deve designar os acessos de gravação, lista e exclusão.
Para saber mais, confira Criar tokens de SAS.
Dados de treinamento
Siga estas dicas para otimizar seu conjunto de dados para treinamento:
Use documentos PDF de texto em vez de documentos baseados em imagem. Os PDFs digitalizados são tratados como imagens.
Use exemplos que tenham todos os campos concluídos para formulários com campos de entrada.
Use os formulários com diferentes valores em cada campo.
Use um conjunto de dados maior (10 a 15 imagens) se as imagens do formulário forem de qualidade inferior.
Uma vez que você tenha seus contêineres de armazenamento de blobs do Azure, carregue seus dados de treinamento em seus contêineres de origem. Agora você está pronto para treinar seu modelo generativo personalizado.
Estúdio de IA do Azure
Navegue até o Estúdio de IA do Azure. Na primeira vez que usar o Estúdio, você precisará inicializar sua assinatura e criar um hub antes de criar um projeto. Modelos generativos personalizados estão disponíveis apenas no Leste dos EUA e no Centro-Norte dos EUA em versão prévia. Certifique-se de que seu grupo de recursos está definido para Leste dos EUA ou Centro-Norte dos EUA durante a criação do hub.
Selecione o bloco Visão + Documento.
Em seguida, selecione o bloco de Extração de campo de documento e selecione o botão Criar projeto de extração de campo de documento para criar um projeto.
Crie seu projeto. Para obter mais informações, consulte Criar um projeto no Estúdio de IA do Azure.
Crie uma conexão dos serviços de IA do Azure para acessar o serviço de Informação de Documentos do Azure:
Em seguida, selecione a conta de armazenamento que você usou para carregar seu conjunto de dados de treinamento de modelo personalizado.
Examine as configurações do projeto e selecione
Create a Project
para criar um novo projeto. Depois de selecionar no projeto, agora você deverá estar na janelaDefine schema
e ver os arquivos em seu conjunto de dados listados.
Definir o esquema
Para seu projeto, a primeira tarefa é adicionar os campos a serem extraídos e definir um esquema.
Os arquivos carregados estão listados e você pode usar a opção suspensa para selecionar arquivos. Você pode começar a adicionar campos clicando no botão
➕ Add new field
.Insira um nome, uma descrição e um tipo para o campo a ser extraído. Depois que todos os campos forem adicionados, selecione o botão
Save
na parte inferior da tela.
Dados do rótulo
Depois que o esquema for salvo, todos os documentos de treinamento carregados são analisados e os valores dos campos são extraídos automaticamente. Os valores dos campos são listados na tela para revisão. Os campos extraídos automaticamente são rotulados como Previstos.
Examine os valores previstos. Se o valor do campo estiver incorreto ou não foi extraído, você poderá passar o mouse sobre o campo previsto. Selecione o botão editar para fazer as alterações:
Depois que a alteração for feita, o rótulo Previsto mudará para
Corrected
:Continue revisando os campos previstos. Depois que os rótulos forem revisados e corrigidos para todos os documentos de treinamento, prossiga para criar seu modelo.
Observação
Você sempre pode voltar e atualizar o esquema durante o treinamento do modelo, mas, para usar a funcionalidade de rótulo automático, você precisa excluir e recarregar os arquivos usando a opção
Upload files
.
Criar seu modelo
Com o seu conjunto de dados rotulado, agora você está pronto para treinar seu modelo. Selecione o Build model
. Na página da caixa de diálogo Criar modelo, forneça um nome de modelo exclusivo e, opcionalmente, uma descrição. O modelID aceita um tipo de dados de cadeia de caracteres.
Selecione Build
para iniciar o processo de treinamento. Modelos generativos treinam instantaneamente! Atualize a página para selecionar o modelo depois que o status for alterado para bem-sucedido.
Testar o modelo
Depois que o treinamento de modelo for concluído, você poderá testar seu modelo selecionando o botão
Test
na página CustomGenerative.Carregue seus arquivos de teste e selecione
Run Analysis
para extrair valores de campos de documentos. Com a opçãoAnalyze
, você pode optar por executar e analisar no documento atual ou em todos os documentos.Valide seu modelo avaliando os resultados de cada campo.
É isso! Você aprendeu a treinar um modelo generativo personalizado no Estúdio de IA do Azure. Seu modelo está pronto para uso com a API REST ou o SDK para analisar documentos.
Próximas etapas
Saiba mais sobre o modelo generativo personalizado
Saiba mais sobre a precisão e a confiança do modelo personalizado