Informazioni sulle impostazioni di ricerca e analisi nei casi di eDiscovery

Articolo
03/06/2025

È possibile configurare le impostazioni per ogni caso di eDiscovery per controllare le funzionalità seguenti:

Documenti simili e threading posta elettronica
Temi
Query dell'insieme da rivedere automatica
Testo da ignorare
Riconoscimento ottico dei caratteri

Consiglio

Introduzione a Microsoft Security Copilot per esplorare nuovi modi per lavorare in modo più intelligente e veloce usando la potenza dell'IA. Altre informazioni su Microsoft Security Copilot in Microsoft Purview.

Configurare le impostazioni di analisi per un caso

Per configurare le impostazioni di ricerca e analisi per un caso:

Passare al portale di Microsoft Purview e accedere usando le credenziali per un account utente a cui sono assegnate le autorizzazioni di eDiscovery.
Selezionare la scheda della soluzione eDiscovery e quindi selezionare Case nel riquadro di spostamento a sinistra.
Selezionare un caso, quindi selezionare Impostazioni case.
Nella pagina Impostazioni case selezionare Cerca & analytics.
Viene visualizzata la pagina Ricerca & analisi del caso. Queste impostazioni vengono applicate a tutti i set di revisione in un caso.
Dopo aver selezionato le opzioni di ricerca e analisi applicabili, selezionare Salva.

Le sezioni seguenti di questo articolo descrivono le impostazioni di analisi che è possibile configurare per un caso.

Documenti simili e threading posta elettronica

In questa sezione è possibile impostare parametri per il rilevamento duplicati, il rilevamento quasi duplicato e il threading della posta elettronica.

Quasi duplicati/threading di posta elettronica: Se attivato, il rilevamento dei duplicati, il rilevamento quasi duplicato e il threading della posta elettronica vengono inclusi come parte del flusso di lavoro quando si eseguono analisi sui dati in un set di revisione.
Soglia di somiglianza di documenti e messaggi di posta elettronica: Se il livello di somiglianza per due documenti supera la soglia, entrambi i documenti vengono inseriti nello stesso set quasi duplicato.
Numero minimo/massimo di parole: Queste impostazioni specificano che i duplicati vicini e l'analisi del threading della posta elettronica vengono eseguiti solo su documenti con almeno il numero minimo di parole e al massimo il numero massimo di parole.

Rilevamento di documenti simili

Si consideri un insieme di documenti da rivedere in cui un sottoinsieme si basa sullo stesso modello e ha per lo più lo stesso linguaggio boilerplate, con alcune differenze presenti. Se un revisore è in grado di identificare questo subset, esaminarne uno accuratamente ed esaminare le differenze per il resto, non perderebbe alcuna informazione univoca, impiegando solo una frazione di tempo per leggere tutte le copertine di tutti i documenti da coprire. Il rilevamento di documenti simili raggruppa documenti con similarità testuali per contribuire a rendere più efficiente il processo di revisione.

Quando viene eseguito il rilevamento di documenti simili, il sistema analizza ogni documento con testo. Confronta quindi ogni documento con gli altri per determinare se la similarità è maggiore della soglia impostata. Se è questo il caso, i documenti vengono raggruppati. Una volta confrontati e raggruppati tutti i documenti, un documento di ogni gruppo viene contrassegnato come "pivot"; nel rivedere i documenti, è possibile esaminare prima un pivot ed esaminare gli altri documenti nello stesso set quasi duplicato, concentrandosi sulla differenza tra il pivot e il documento in esame.

Threading posta elettronica

Si consideri una conversazione di posta elettronica in corso da un po' di tempo. Nella maggior parte dei casi, l'ultimo messaggio nel thread di posta elettronica include il contenuto di tutti i messaggi precedenti. Pertanto, la revisione dell'ultimo messaggio fornisce un contesto completo della conversazione che si è verificata nel thread. Il threading di posta elettronica identifica tali messaggi in modo che i revisori possano esaminare una frazione dei documenti raccolti senza perdere alcun contesto.

Email threading in eDiscovery è il processo di organizzazione di una sequenza di messaggi di posta elettronica correlati che fanno parte della stessa conversazione. Ciò include il messaggio di posta elettronica iniziale e tutte le risposte e gli inoltramenti successivi collegati all'indirizzo di posta elettronica originale. Raggruppando questi messaggi di posta elettronica in thread, i revisori vedono l'intero contesto di una conversazione, semplificando la comprensione del flusso di comunicazione. Questo approccio consente di identificare le informazioni pertinenti in modo più efficiente ed elimina la necessità di esaminare ogni messaggio di posta elettronica singolarmente. Email messaggi inclusi nel processo di analisi vengono popolati i metadati seguenti:

È inclusivo: questo campo identifica se un messaggio di posta elettronica contiene tutto il contenuto univoco di un thread, incluse tutte le risposte precedenti. Garantisce che venga esaminato solo il messaggio di posta elettronica più completo in un thread, essenziale per comprendere il contesto completo della conversazione senza dover esaminare ogni singola risposta.
Allegati univoci: questo campo contrassegna i messaggi di posta elettronica che contengono allegati non trovati in altri messaggi di posta elettronica all'interno dello stesso thread. Anche se il contenuto del messaggio di posta elettronica è duplicato, gli allegati univoci vengono contrassegnati per garantire la revisione di tutti i documenti pertinenti. Questo è importante nel processo di revisione legale per garantire che non venga trascurata alcuna prova univoca, anche se l'organismo di posta elettronica stesso non è univoco.

Qual è la differenza rispetto alle conversazioni in Outlook?

A colpo d'occhio, questo sembra simile ai raggruppamenti di conversazioni in Outlook. Esistono tuttavia alcune importanti differenze. Si consideri una conversazione di posta elettronica che è stata forked in due conversazioni; ad esempio, qualcuno ha risposto a un messaggio di posta elettronica che non è l'ultimo della conversazione, quindi gli ultimi due messaggi di posta elettronica nella conversazione hanno entrambi contenuto univoco.

Outlook avrebbe ancora raggruppare i messaggi di posta elettronica in una singola conversazione; la lettura solo dell'ultimo messaggio di posta elettronica potrebbe non essere presente nel contesto del messaggio di posta elettronica dal secondo all'ultimo, che contiene anche contenuto univoco. Poiché il threading della posta elettronica analizza ogni messaggio di posta elettronica in singoli componenti e li confronta, il threading della posta elettronica contrassegnerà entrambi gli ultimi due messaggi di posta elettronica come inclusivi, assicurandosi di non perdere alcun contesto finché si leggono tutti i messaggi di posta elettronica contrassegnati come inclusivi.

Si consideri anche un thread di posta elettronica con più risposte, in cui alcune risposte includono risposte inline che modificano il contenuto tra virgolette. Se una risposta inline modifica parte del messaggio di posta elettronica precedente, la risposta più recente non include completamente il contenuto del messaggio di posta elettronica precedente. Sia la risposta più recente che il messaggio di posta elettronica precedente con contenuto univoco sono contrassegnati come inclusivi. Questo approccio garantisce che tutte le informazioni univoche della risposta inline vengano mantenute e non trascurate.

Temi

In questa sezione è possibile impostare i parametri seguenti per i temi:

Temi: Se attivata, il clustering dei temi viene eseguito come parte del flusso di lavoro quando si esegue l'analisi sui dati in un set di revisione.
Numero massimo di temi: Specifica il numero massimo di temi che possono essere generati quando si esegue l'analisi sui dati in un set di revisione.
Includere numeri nei temi: Quando è attivata, i numeri (che identificano un tema) vengono inclusi durante la generazione dei temi.
Regolare dinamicamente il numero massimo di temi: In determinate situazioni, in un set di revisione potrebbero non essere presenti documenti sufficienti per produrre il numero desiderato di temi. Quando questa impostazione è abilitata, eDiscovery modifica il numero massimo di temi dinamicamente, invece di tentare di applicare il numero massimo di temi.

Quando si crea un nuovo documento, in genere si inizia con una o più idee che si desidera trasmettere nel documento e quindi si compone il documento usando parole allineate a queste idee. Quanto più un'idea è diffusa, tanto più frequenti sono le parole correlate a quell'idea. Questo metodo è anche allineato al modo in cui i lettori utilizzano i documenti. Le cose importanti da comprendere dalla lettura di un documento sono le idee principali che il documento sta cercando di trasmettere. Ciò include anche quali idee appaiono dove e quali sono le relazioni tra le idee.

Questo processo può essere esteso al modo in cui un revisore di eDiscovery vuole utilizzare un set di documenti in un caso. Vogliono vedere quali idee sono presenti nei set di revisione e quali documenti parlano di tali idee. Se trovano un particolare documento di interesse, vogliono essere in grado di vedere documenti che discutono idee simili.

La funzionalità Temi in eDiscovery tenta di simulare la ragione dei documenti da parte degli utenti, analizzando i temi discussi in un set di revisione e assegnando un tema ai documenti nel set di revisione. In eDiscovery i temi vanno oltre e identificano il tema dominante in ogni set di revisione e documento. Il tema dominante è quello che appare più spesso in un documento.

Come funzionano i temi?

La funzionalità Temi analizza i documenti con testo in un set di revisione per analizzare i temi comuni visualizzati in tutti i documenti del set di revisione. eDiscovery assegna i temi ai documenti in cui sono visualizzati. Ogni tema viene inoltre etichettato con le parole utilizzate nei documenti che ne sono rappresentativi. Poiché un documento può contenere vari tipi di argomenti, eDiscovery spesso assegna più temi per esaminare set e documenti. Questo viene definito l'elenco Temi. Il tema che appare più in primo piano in un set di revisioni o in un documento è designato come tema dominante.

Configurazione dei temi

I temi sono supportati per i casi e si applicano a tutti i set di revisione al loro interno. È possibile configurare le impostazioni per i temi quando si crea un nuovo caso oppure è possibile aggiornare le impostazioni del tema per un caso esistente.

Per configurare i temi in un caso, completare la procedura seguente:

Passare al portale di Microsoft Purview e accedere usando le credenziali per un account utente a cui sono assegnate le autorizzazioni di eDiscovery.
Selezionare la scheda della soluzione eDiscovery e quindi selezionare Case (anteprima) nel riquadro di spostamento a sinistra.
Selezionare un caso e selezionare Impostazioni case.
Nella pagina Impostazioni case selezionare Cerca & analytics.
Selezionare le opzioni del tema seguenti in base alle esigenze:
- Numero massimo di temi: Specifica il numero massimo di temi che possono essere generati quando si eseguono analisi sui dati nei set di revisione inclusi in un caso. Per altre informazioni sui limiti, vedere Limiti in eDiscovery.
- Includere numeri nei temi: I numeri (che identificano un tema) vengono inclusi durante la generazione dei temi.
- Regolare dinamicamente il numero massimo di temi: In determinate situazioni, in un set di revisione potrebbero non essere presenti documenti sufficienti per produrre il numero desiderato di temi per il caso. Quando questa impostazione è abilitata, il numero massimo di temi viene regolato dinamicamente anziché tentare di applicare il numero massimo di temi.
Se è necessario escludere le parole chiave associate ai temi, immettere il testo o l'espressione regolare necessaria nel campo Ignora testo . Nel campo Applica a selezionare Temi per applicare il testo o l'espressione regolare a tutti i temi.
Seleziona Salva.

Dopo aver creato un nuovo caso, l'analisi viene eseguita automaticamente sui dati quando i set di revisione vengono aggiunti al caso. I temi per i set di revisione vengono generati come parte dell'elaborazione dell'analisi.

Query dell'insieme da rivedere

Se si seleziona la casella di controllo Crea automaticamente una ricerca salvata per la revisione dopo l'analisi , eDiscovery genera automaticamente la query del set di revisione denominata For Review.

Questa query esclude gli elementi duplicati dal set di revisione, consentendo di esaminare rapidamente gli elementi univoci nel set di revisione. Questa query viene creata solo quando si eseguono analisi per un insieme da rivedere nel caso. Per altre informazioni sulle query sui set di revisione, vedere Eseguire query sui dati in un set di revisione.

Testo da ignorare

Ci sono situazioni in cui un determinato testo diminuisce la qualità dell'analisi, ad esempio lunghe dichiarazioni di non responsabilità che vengono aggiunte ai messaggi di posta elettronica indipendentemente dal contenuto del messaggio di posta elettronica. Se si conosce il testo che deve essere ignorato, è possibile escluderlo dall'analisi specificando la stringa di testo e la funzionalità di analisi (quasi duplicati, threading della posta elettronica, temi e rilevanza) per cui il testo deve essere escluso. È supportato anche l'uso di espressioni regolari (RegEx) per il testo ignorato.

Riconoscimento ottico dei caratteri (OCR)

Quando questa impostazione è attivata, l'elaborazione OCR viene eseguita sui file di immagine. Quando si applica OCR ai file di immagine, il testo in questi file è disponibile nei risultati della ricerca. OCR viene eseguito solo su elementi elaborati durante l'indicizzazione avanzata (se questa opzione è selezionata nella query di ricerca).

Ad esempio, se durante l'indicizzazione avanzata viene elaborato un file PDF di grandi dimensioni parzialmente indicizzato o con altri errori di indicizzazione, viene applicato il registro OCR. L'elaborazione OCR si verifica solo nei file reindicizzati durante il processo di indicizzazione avanzata. Ciò significa che potrebbero verificarsi situazioni in cui il contenuto viene aggiunto a un set di revisioni, ma alcuni allegati di posta elettronica non vengono elaborati per OCR perché questi file non vengono elaborati durante l'indicizzazione avanzata.

Dopo l'aggiunta di dati a un set di revisione, il testo dell'immagine può essere esaminato, cercato, contrassegnato e analizzato. È possibile visualizzare il testo estratto nel visualizzatore testo del file di immagine selezionato nel set di revisione. Per altre informazioni, vedere:

Condividi tramite