Compartilhar via


Referência de codificação preditiva (pré-visualização)

Dica

A Deteção de Dados Eletrónicos (pré-visualização) está agora disponível no novo portal do Microsoft Purview. Para saber mais sobre como utilizar a nova experiência de Deteção de Dados Eletrónicos, veja Saiba mais sobre a Deteção de Dados Eletrónicos (pré-visualização).

Importante

A codificação preditiva foi descontinuada a partir de 31 de março de 2024 e não está disponível em novos casos de Deteção de Dados Eletrónicos. Para casos existentes com modelos de codificação preditiva preparados, pode continuar a aplicar filtros de classificação existentes para rever conjuntos. No entanto, não pode criar ou preparar novos modelos.

Este artigo descreve os principais conceitos e métricas da ferramenta de codificação preditiva no Descoberta Eletrônica do Microsoft Purview (Premium). As secções no artigo estão listadas por ordem alfabética.

Dica

Se você não é um cliente E5, use a avaliação das soluções do Microsoft Purview de 90 dias para explorar como os recursos adicionais do Purview podem ajudar sua organização a gerenciar as necessidades de segurança e conformidade de dados. Comece agora no hub de avaliações do Microsoft Purview. Saiba mais detalhes sobre os termos de inscrição e avaliação.

Nível de confiança

O nível de confiança é uma definição avançada quando cria um modelo de codificação preditiva. Define que as métricas de desempenho do modelo (por exemplo, riqueza, precisão e revocação) se enquadram num intervalo especificado (que determinou a margem de erro definida para o modelo) que representa os valores verdadeiros das classificações de predição que o modelo atribui aos itens no conjunto de revisão. Os valores do nível de confiança e da margem de erro também ajudam a determinar quantos itens estão incluídos no conjunto de controlo. O valor predefinido para o nível de confiança é 0,95% ou 95%.

Conjunto de controlo

É utilizado um conjunto de controlo durante o processo de preparação de um modelo de codificação preditiva. O conjunto de controlo é para avaliar as classificações de predição que o modelo atribui aos itens com a etiquetagem que efetua durante as rondas de preparação. O tamanho do conjunto de controlo baseia-se no número de itens no conjunto de revisões e no nível de confiança e margem de valores de erro definidos ao criar o modelo. Os itens no conjunto de controlo nunca mudam e não são identificáveis para os utilizadores. O número total de itens no conjunto de controlo é apresentado na página de lista de opções para uma ronda de preparação.

Matriz de confusão do conjunto de controlo

Depois de concluir uma ronda de preparação, o modelo atribui uma classificação de predição aos 10 itens no conjunto de controlo que classificou durante a ronda de preparação. O modelo compara a classificação de predição destes 10 itens com a etiqueta real que atribuiu ao item durante a ronda de preparação. Com base nesta comparação, o modelo identifica as seguintes classificações para avaliar o desempenho de predição do modelo:



Rótulo O modelo prevê que o item é relevante O modelo prevê que o item não é relevante
Item de etiquetas do revisor como relevante Verdadeiro positivo Falso positivo
Item de etiquetas do revisor como não relevante Falso negativo Verdadeiro negativo

Com base nestas comparações, o modelo obtém valores para as métricas de classificação F, precisão e revocação e a margem de erro para cada uma. O número de cada um dos tipos de confusão da matriz é apresentado na página de lista de opções para uma ronda de preparação.

Classificação F

A classificação F é uma média ponderada das classificações para as métricas de precisão e revocação. O intervalo de classificações para esta métrica é de 0 a 1. Uma classificação mais próxima de 1 indica que o modelo detetará itens relevantes com mais precisão. A métrica classificação F é apresentada no modelo dashboard e na página de lista de opções para cada ronda de preparação.

Margem de erro

A margem de erro é uma definição avançada quando cria um modo de codificação preditiva. Especifica o grau de erro nas métricas de desempenho (por exemplo, riqueza, precisão e revocação) que deriva da amostragem aleatória de itens no conjunto de controlo. Uma margem de erro inferior requer um conjunto de controlo maior para garantir que as métricas de desempenho do modelo se enquadram num intervalo mais pequeno. Os valores da margem de erro e do nível de confiança também ajudam a determinar quantos itens estão incluídos no conjunto de controlo. O valor predefinido para a margem de erro é 0,05% ou 5%.

Estabilidade do modelo

A estabilidade do modelo indica a capacidade do modelo de prever com precisão se um documento num conjunto de revisão é relevante ou não relevante. Quando um modelo é instável, poderão ter de ser realizadas mais rondas de preparação para incluir a estabilidade do modelo. Quando o modelo está estável, não é necessário realizar mais rondas de preparação. O modelo dashboard indica o estado atual da estabilidade do modelo. Quando um modelo é estável, as métricas de desempenho atingiram um nível que corresponde às definições do nível de confiança e da margem de erro.

Taxa de anulação

A taxa de anulação é a percentagem de itens no conjunto de revisão em que a classificação de predição mudou entre as rondas de preparação. Um modelo é considerado estável quando a taxa de anulação é inferior a 5%. A métrica de taxa de anulação é apresentada no modelo dashboard e na página de lista de opções para cada ronda de preparação. A taxa de anulação da primeira ronda de preparação é zero porque não há uma pontuação de predição anterior para anular.

Precisão

A métrica de precisão mede a proporção de itens relevantes entre os itens que o modelo previu serem relevantes. Isto significa que os itens no conjunto de controlo onde a etiqueta é relevante pelo revisor e são previstos como relevantes pelo modelo. O intervalo de classificações para esta métrica é de 0 a 1. Uma classificação mais próxima de 1 indica que o modelo identificará menos itens não relevantes. A métrica de precisão é apresentada no modelo dashboard e na página de lista de opções para cada ronda de preparação.

Pontuação de predição

Esta é a classificação que um modelo atribui a cada documento num conjunto de revisão. A classificação baseia-se na relevância do documento em comparação com a aprendizagem do modelo com as rondas de preparação. Em geral, os itens com classificações de predição entre 0 e 0,5 são considerados não relevantes e os itens com classificações de predição entre 0,5 e 1 são considerados relevantes. A classificação de predição está contida num campo de metadados do documento. Pode utilizar um filtro de predição para apresentar os itens num conjunto de revisão que se inserem num intervalo de predição especificado.

Busca rápida

A métrica de revocação mede a proporção de itens que o modelo previu serem relevantes entre os itens relevantes. Isto significa que os itens relevantes no conjunto de controlo que o modelo previu também foram etiquetados como relevantes pelo revisor. O intervalo de classificações para esta métrica é de 0 a 1. Uma classificação mais próxima de 1 indica que o modelo identificará uma parte maior dos itens relevantes. A métrica de resgate é apresentada no modelo dashboard e na página de lista de opções para cada ronda de preparação.

Conjuntos de revisão

Um conjunto de revisão fornece o âmbito de um modelo de codificação preditiva. Quando cria um novo modelo para o conjunto de revisão, os itens do conjunto de controlo e dos conjuntos de preparação são selecionados no conjunto de revisão. Quando o modelo atribui classificações de predição, atribui essas classificações aos itens na revisão. Tem de adicionar todos os itens ao conjunto de revisões antes de criar um modelo de codificação preditiva. Se adicionar itens depois de criar um modelo, não será atribuída uma classificação de predição a esses itens.

Riqueza

A métrica de riqueza mede a percentagem de itens do conjunto de revisão que o modelo prevê como relevantes. O intervalo de classificações para esta métrica é de 0 a 1. A métrica de riqueza é apresentada no modelo dashboard.

Itens de exemplo

O termo itens amostrados é uma referência a uma amostra aleatória de itens num conjunto de revisão (que contém texto) que são selecionados e associados ao conjunto de controlo quando cria um modelo de codificação preditiva. Também é selecionada uma amostra aleatória de itens para cada ronda de preparação. Os itens selecionados para o conjunto de controlo de um modelo nunca são incluídos num conjunto de preparação para esse mesmo modelo. O inverso também é verdadeiro: os itens do conjunto de preparação nunca são incluídos no conjunto de controlo.

Conjunto de preparação

O modelo seleciona aleatoriamente itens do conjunto de revisão e adiciona-os a um conjunto de preparação. Durante uma ronda de preparação, os itens do conjunto de preparação (além dos itens do conjunto de controlo) são-lhe apresentados para que possa etiquetar cada um como "relevante" ou "não relevante". Este processo de etiquetagem ou "preparação" ajuda o modelo a aprender a prever que itens na revisão são relevantes ou não relevantes. Sempre que realizar uma ronda de preparação, o modelo seleciona mais itens da revisão e adiciona-os ao conjunto de preparação dessa ronda de preparação. Os itens do conjunto de controlo nunca são selecionados para um conjunto de preparação.