Riferimento per la codifica predittiva (anteprima)
Consiglio
eDiscovery (anteprima) è ora disponibile nel nuovo portale di Microsoft Purview. Per altre informazioni sull'uso della nuova esperienza di eDiscovery, vedere Informazioni su eDiscovery (anteprima).
Importante
La codifica predittiva è stata ritirata a partire dal 31 marzo 2024 e non è disponibile nei nuovi casi di eDiscovery. Per i casi esistenti con modelli di codifica predittiva sottoposti a training, è possibile continuare ad applicare filtri di punteggio esistenti per esaminare i set. Tuttavia, non è possibile creare o eseguire il training di nuovi modelli.
Questo articolo descrive i concetti chiave e le metriche dello strumento di codifica predittiva in Microsoft Purview eDiscovery (Premium). Le sezioni dell'articolo sono elencate in ordine alfabetico.
Consiglio
Se non si è cliente E5, usa la versione di valutazione delle soluzioni Microsoft Purview di 90 giorni per esplorare in che modo funzionalità aggiuntive di Purview possono aiutare l'organizzazione a gestire le esigenze di sicurezza e conformità dei dati. Iniziare ora dall'hub delle versioni di valutazione di Microsoft Purview. Informazioni dettagliate sui termini di registrazione e prova.
Livello di probabilità
Il livello di attendibilità è un'impostazione avanzata quando si crea un modello di codifica predittiva. Definisce che le metriche delle prestazioni del modello (ad esempio, ricchezza, precisione e richiamo) rientrano in un intervallo specificato (determinato il margine di errore definito per il modello) rappresentativo dei valori reali della stima che il modello assegna agli elementi nel set di revisione. I valori per il livello di attendibilità e il margine di errore consentono anche di determinare il numero di elementi inclusi nel set di controlli. Il valore predefinito per il livello di attendibilità è 0,95% o 95%.
Set di controlli
Un set di controlli viene usato durante il processo di training di un modello di codifica predittiva. Il set di controlli consiste nel valutare i punteggi di stima assegnati dal modello agli elementi con l'etichettatura eseguita durante i cicli di training. Le dimensioni del set di controlli si basano sul numero di elementi nel set di revisione e sul livello di attendibilità e sul margine dei valori di errore impostati durante la creazione del modello. Gli elementi nel set di controlli non cambiano mai e non sono identificabili per gli utenti. Il numero totale di elementi nel set di controlli viene visualizzato nella pagina a comparsa per un round di training.
Matrice di confusione del set di controlli
Dopo aver completato un round di training, il modello assegna un punteggio di stima ai 10 elementi del set di controlli etichettati durante il round di training. Il modello confronta il punteggio di stima di questi 10 elementi con l'etichetta effettiva assegnata all'elemento durante il round di training. In base a questo confronto, il modello identifica le classificazioni seguenti per valutare le prestazioni di stima del modello:
Etichetta | L'elemento di stima del modello è rilevante | L'elemento di stima del modello non è rilevante |
---|---|---|
L'elemento del revisore etichetta l'elemento come pertinente | Vero positivo | Falso positivo |
Il revisore etichetta l'elemento come non pertinente | Falso negativo | Vero negativo |
In base a questi confronti, il modello deriva i valori per le metriche F-score, precision e recall e il margine di errore per ognuno di essi. Il numero di ognuno dei tipi di confusione della matrice viene visualizzato nella pagina a comparsa per un round di training.
Punteggio F
Il punteggio F è una media ponderata dei punteggi per le metriche di precisione e richiamo. L'intervallo di punteggi per questa metrica è compreso tra 0 e 1. Un punteggio più vicino a 1 indica che il modello rileverà in modo più accurato gli elementi rilevanti. La metrica F-score viene visualizzata nel dashboard del modello e nella pagina a comparsa per ogni round di training.
Margine di errore
Il margine di errore è un'impostazione avanzata quando si crea una modalità di codifica predittiva. Specifica il grado di errore nelle metriche delle prestazioni (ad esempio, ricchezza, precisione e richiamo) derivato dal campionamento casuale degli elementi nel set di controlli. Un margine di errore inferiore richiede un set di controlli più grande per garantire che le metriche delle prestazioni del modello rientrino in un intervallo più piccolo. I valori per il margine di errore e il livello di attendibilità consentono anche di determinare il numero di elementi inclusi nel set di controlli. Il valore predefinito per il margine di errore è 0,05% o 5%.
Stabilità del modello
La stabilità del modello indica la capacità del modello di stimare con precisione se un documento in un set di revisione è rilevante o meno. Quando un modello è instabile, potrebbe essere necessario eseguire più turni di training per includere la stabilità del modello. Quando il modello è stabile, potrebbe non essere necessario eseguire altri turni di training. Il dashboard del modello indica lo stato corrente della stabilità del modello. Quando un modello è stabile, le metriche delle prestazioni hanno raggiunto un livello corrispondente alle impostazioni per il livello di attendibilità e il margine di errore.
Tasso di ribaltamento
La percentuale di capovolgimento è la percentuale di elementi nel set di revisioni in cui il punteggio di stima è cambiato tra i turni di training. Un modello viene considerato stabile quando la percentuale di ribaltamento è inferiore al 5%. La metrica del tasso di capovolgimento viene visualizzata nel dashboard del modello e nella pagina a comparsa per ogni round di training. La frequenza di ribaltamento per il primo round di training è zero perché non è presente un punteggio di stima precedente da capovolgere.
Precisione
La metrica di precisione misura la proporzione di elementi rilevanti tra gli elementi stimati dal modello. Ciò significa che gli elementi nel set di controlli in cui l'etichetta è rilevante per il revisore e vengono stimati come rilevanti dal modello. L'intervallo di punteggi per questa metrica è compreso tra 0 e 1. Un punteggio più vicino a 1 indica che il modello identificherà meno elementi non rilevanti. La metrica di precisione viene visualizzata nel dashboard del modello e nella pagina a comparsa per ogni round di training.
Punteggio di stima
Questo è il punteggio assegnato da un modello a ogni documento in un set di revisione. Il punteggio si basa sulla rilevanza del documento rispetto all'apprendimento del modello dai cicli di training. In generale, gli elementi con punteggi di stima compresi tra 0 e 0,5 vengono considerati non rilevanti e gli elementi con punteggi di stima compresi tra 0,5 e 1 sono considerati rilevanti. Il punteggio di stima è contenuto in un campo di metadati del documento. È possibile usare un filtro di stima per visualizzare gli elementi in un set di revisione che rientrano in un intervallo di stima specificato.
Richiamo
La metrica di richiamo misura la percentuale di elementi stimati dal modello rilevanti tra gli elementi rilevanti. Ciò significa che anche gli elementi rilevanti nel set di controlli stimati dal modello sono stati etichettati come rilevanti dal revisore. L'intervallo di punteggi per questa metrica è compreso tra 0 e 1. Un punteggio più vicino a 1 indica che il modello identificherà una parte maggiore degli elementi pertinenti. La metrica di richiamo viene visualizzata nel dashboard del modello e nella pagina a comparsa per ogni round di training.
Set di revisione
Un set di revisione fornisce l'ambito di un modello di codifica predittiva. Quando si crea un nuovo modello per il set di revisione, gli elementi per il set di controlli e i set di training vengono selezionati nel set di revisione. Quando il modello assegna i punteggi di stima, assegna tali punteggi agli elementi nella revisione. È necessario aggiungere tutti gli elementi al set di revisione prima di creare un modello di codifica predittiva. Se si aggiungono elementi dopo aver creato un modello, a tali elementi non verrà assegnato un punteggio di stima.
Ricchezza
La metrica di ricchezza misura la percentuale di elementi del set di revisione stimati dal modello come rilevanti. L'intervallo di punteggi per questa metrica è compreso tra 0 e 1. La metrica richness viene visualizzata nel dashboard del modello.
Elementi campionati
Il termine elementi campionati è un riferimento a un campione casuale di elementi in un set di revisione (che contiene testo) selezionati e associati al set di controlli quando si crea un modello di codifica predittiva. Per ogni round di training viene selezionato anche un campione casuale di elementi. Gli elementi selezionati per il set di controlli di un modello non vengono mai inclusi in un set di training per lo stesso modello. Anche il contrario è vero: gli elementi del set di training non sono mai inclusi nel set di controlli.
Set di training
Il modello seleziona in modo casuale gli elementi dal set di revisione e li aggiunge a un set di training. Durante un round di training, gli elementi del set di training (oltre agli elementi del set di controlli) vengono presentati in modo da poter etichettare ognuno come "rilevante" o "non pertinente". Questo processo di etichettatura o "training" consente al modello di apprendere come prevedere quali elementi della revisione sono rilevanti o non rilevanti. Ogni volta che si esegue un round di training, il modello seleziona altri elementi dalla revisione e li aggiunge al set di training per tale round di training. Gli elementi del set di controlli non vengono mai selezionati per un set di training.