Compartilhar via


Saiba mais sobre a codificação preditiva na Deteção de Dados Eletrónicos (Premium) (pré-visualização)

Dica

A Deteção de Dados Eletrónicos (pré-visualização) está agora disponível no novo portal do Microsoft Purview. Para saber mais sobre como utilizar a nova experiência de Deteção de Dados Eletrónicos, veja Saiba mais sobre a Deteção de Dados Eletrónicos (pré-visualização).

Importante

A codificação preditiva foi descontinuada a partir de 31 de março de 2024 e não está disponível em novos casos de Deteção de Dados Eletrónicos. Para casos existentes com modelos de codificação preditiva preparados, pode continuar a aplicar filtros de classificação existentes para rever conjuntos. No entanto, não pode criar ou preparar novos modelos.

O módulo de codificação preditiva na Deteção de Dados Eletrónicos (Premium) utiliza as capacidades inteligentes de machine learning para ajudar a reduzir a quantidade de conteúdo a rever. A codificação preditiva ajuda-o a reduzir e a reduzir grandes volumes de conteúdo de casos para um conjunto relevante de itens que pode priorizar para revisão. Isto é conseguido ao criar e preparar os seus próprios modelos de codificação preditiva que o ajudam a priorizar a revisão dos itens mais relevantes num conjunto de revisão.

O módulo de codificação preditiva foi concebido para simplificar a complexidade da gestão de um modelo num conjunto de revisões e fornecer uma abordagem iterativa para preparar o seu modelo para que possa começar mais rapidamente com as capacidades de machine learning na Deteção de Dados Eletrónicos (Premium). Para começar, pode criar um modelo, etiquetar até 50 itens como relevantes ou não relevantes. O sistema utiliza esta preparação para aplicar classificações de predição a todos os itens no conjunto de revisão. Isto permite-lhe filtrar itens com base na classificação de predição, o que lhe permite rever primeiro os itens mais relevantes (ou não relevantes). Se quiser preparar modelos com maiores precisões e taxas de revocação, pode continuar a etiquetar itens nas rondas de preparação subsequentes até o modelo estabilizar.

Dica

Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.

O fluxo de trabalho de codificação preditiva

Eis uma descrição geral e uma descrição de cada passo de fluxo de trabalho de codificação preditiva. Para obter uma descrição mais detalhada dos conceitos e terminologia do processo de codificação preditiva, veja Referência de codificação preditiva.

Fluxo de trabalho de codificação preditiva.

  1. Crie um novo modelo de codificação preditiva no conjunto de revisão. O primeiro passo é criar um novo modelo de codificação preditiva no conjunto de revisão. Tem de ter, pelo menos, 2000 itens no conjunto de revisões para criar um modelo. Depois de criar um modelo, o sistema determinará o número de itens a utilizar como um conjunto de controlo. O conjunto de controlo é utilizado durante o processo de preparação para avaliar as classificações de predição que o modelo atribui aos itens com a etiquetagem que efetua durante as rondas de preparação. O tamanho do conjunto de controlo baseia-se no número de itens no conjunto de revisões e no nível de confiança e margem de valores de erro definidos ao criar o modelo. Os itens no conjunto de controlo nunca mudam e não são identificáveis para os utilizadores.

    Para obter mais informações, veja Criar um modelo de codificação preditiva.

  2. Conclua a primeira ronda de preparação ao etiquetar os itens como relevantes ou não relevantes. O próximo passo consiste em preparar o modelo ao iniciar a primeira ronda de preparação. Quando inicia uma ronda de preparação, o modelo seleciona aleatoriamente itens adicionais do conjunto de revisão, que é denominado conjunto de preparação. Estes itens (tanto do conjunto de controlo como do conjunto de preparação) são-lhe apresentados para que possa etiquetar cada um como "relevante" ou "não relevante". A relevância baseia-se no conteúdo do item e não em nenhum dos metadados do documento. Depois de concluir o processo de etiquetagem na ronda de preparação, o modelo irá "aprender" com base na forma como classificou os itens no conjunto de preparação. Com base nesta preparação, o modelo processará os itens no conjunto de revisões e aplicará uma classificação de predição a cada um.

    Para obter mais informações, veja Preparar um modelo de codificação preditiva.

  3. Aplique o filtro de classificação de predição aos itens no conjunto de revisão. Após a conclusão do passo de preparação anterior, o passo seguinte consiste em aplicar o filtro de classificação de predição aos itens na revisão para apresentar os itens que o modelo determinou serem "mais relevantes" (em alternativa, também pode utilizar um filtro de predição para apresentar itens que "não são relevantes"). Quando aplica o filtro de predição, especifica um intervalo de classificações de predição a filtrar. O intervalo de classificações de predição varia entre 0 e 1, sendo 0 "não relevante" e 1 relevante. Em geral, os itens com classificações de predição entre 0 e 0,5 são considerados "não relevantes" e os itens com classificações de predição entre 0,5 e 1 são considerados relevantes.

    Para obter mais informações, veja Aplicar um filtro de predição a um conjunto de revisões.

  4. Efetue mais rondas de preparação até o modelo estabilizar. Pode realizar rondas adicionais de preparação se quiser criar um modelo com uma maior precisão de predição e taxas de revocação aumentadas. Busca rápida taxa mede a proporção de itens que o modelo previu serem relevantes entre os itens que são realmente relevantes (os que marcou como relevantes durante a preparação). A classificação de taxa de revocação varia entre 0 e 1. Uma classificação mais próxima de 1 indica que o modelo identificará itens mais relevantes. Numa nova ronda de preparação, vai etiquetar itens adicionais num novo conjunto de preparação. Depois de concluir a ronda de preparação, o modelo é atualizado com base na nova aprendizagem da sua mais recente ronda de itens de etiquetagem no conjunto de preparação. O modelo irá processar novamente os itens no conjunto de revisão e aplicar novas classificações de predição. Pode continuar a realizar rondas de preparação até o modelo estabilizar. Um modelo é considerado estabilizado quando a taxa de abandono após a última ronda de preparação é inferior a 5%. A taxa de abandono é definida como percentagem de itens num conjunto de revisão em que a classificação de predição mudou entre as rondas de preparação. A dashboard de codificação preditiva apresenta informações e estatísticas que o ajudam a avaliar a estabilidade de um modelo.

  5. Aplique o filtro de classificação de predição "final" para rever os itens definidos para priorizar a revisão. Depois de concluir todas as rondas de preparação e estabilizar o modelo, o último passo é aplicar a classificação de predição final ao conjunto de revisões para priorizar a revisão de itens relevantes e não relevantes. Esta é a mesma tarefa que executou no passo 3, mas neste momento o modelo é estável e não planeia executar mais rondas de preparação.