Freigeben über


Erfahren Sie mehr über predictive coding in eDiscovery (Premium) (Vorschau)

Tipp

eDiscovery (Vorschauversion) ist jetzt im neuen Microsoft Purview-Portal verfügbar. Weitere Informationen zur Verwendung der neuen eDiscovery-Benutzeroberfläche finden Sie unter Informationen zu eDiscovery (Vorschauversion).

Wichtig

Predictive Coding wurde zum 31. März 2024 eingestellt und ist in neuen eDiscovery-Fällen nicht verfügbar. Für vorhandene Fälle mit trainierten Vorhersagecodierungsmodellen können Sie weiterhin vorhandene Bewertungsfilter auf Prüfsätze anwenden. Sie können jedoch keine neuen Modelle erstellen oder trainieren.

Das Predictive Coding-Modul in eDiscovery (Premium) verwendet die intelligenten Machine Learning-Funktionen, um die Menge der zu überprüfenden Inhalte zu reduzieren. Predictive Coding hilft Ihnen, große Mengen von Fallinhalten auf einen relevanten Satz von Elementen zu reduzieren und zu sortieren, die Sie zur Überprüfung priorisieren können. Dies wird erreicht, indem Sie Ihre eigenen Vorhersagecodierungsmodelle erstellen und trainieren, die Ihnen helfen, die Überprüfung der relevantesten Elemente in einem Überprüfungssatz zu priorisieren.

Das Predictive Coding-Modul wurde entwickelt, um die Komplexität der Verwaltung eines Modells innerhalb eines Überprüfungssatzes zu optimieren und einen iterativen Ansatz zum Trainieren Ihres Modells bereitzustellen, damit Sie schneller mit den Machine Learning-Funktionen in eDiscovery (Premium) beginnen können. Zunächst können Sie ein Modell erstellen und nur 50 Elemente als relevant oder nicht relevant bezeichnen. Das System verwendet dieses Training, um Vorhersagebewertungen auf jedes Element im Überprüfungssatz anzuwenden. Auf diese Weise können Sie Elemente basierend auf dem Vorhersageergebnis filtern, sodass Sie zuerst die relevantesten (oder nicht relevanten) Elemente überprüfen können. Wenn Sie Modelle mit höheren Genauigkeiten und Abrufraten trainieren möchten, können Sie in nachfolgenden Trainingsrunden weiterhin Elemente beschriften, bis sich das Modell stabilisiert.

Tipp

Wenn Sie kein E5-Kunde sind, verwenden Sie die 90-tägige Testversion von Microsoft Purview-Lösungen, um zu erfahren, wie zusätzliche Purview-Funktionen Ihre Organisation bei der Verwaltung von Datensicherheits- und Complianceanforderungen unterstützen können. Beginnen Sie jetzt im Microsoft Purview-Testversionshub. Erfahren Sie mehr über Anmelde- und Testbedingungen.

Der Workflow für die Vorhersagecodierung

Hier finden Sie eine Übersicht und Beschreibung der einzelnen Schritte für den Workflow für die Vorhersagecodierung. Eine ausführlichere Beschreibung der Konzepte und der Terminologie des Vorhersagecodierungsprozesses finden Sie unter Referenz zur Vorhersagecodierung.

Workflow für die Vorhersagecodierung.

  1. Erstellen Sie ein neues Vorhersagecodierungsmodell im Überprüfungssatz. Der erste Schritt besteht darin, ein neues Vorhersagecodierungsmodell im Überprüfungssatz zu erstellen. Der Überprüfungssatz muss mindestens 2.000 Elemente enthalten, um ein Modell erstellen zu können. Nachdem Sie ein Modell erstellt haben, bestimmt das System die Anzahl der Elemente, die als Steuerelementsatz verwendet werden sollen. Das Steuerelement wird während des Trainingsprozesses verwendet, um die Vorhersageergebnisse auszuwerten, die das Modell Elementen mit der Bezeichnung zuweist, die Sie während der Trainingsrunden ausführen. Die Größe des Steuerelementsatzes basiert auf der Anzahl der Elemente im Prüfsatz und dem Konfidenzniveau und dem Rand der Fehlerwerte, die beim Erstellen des Modells festgelegt werden. Elemente im Steuerelementsatz ändern sich nie und sind für Benutzer nicht identifizierbar.

    Weitere Informationen finden Sie unter Erstellen eines Vorhersagecodierungsmodells.

  2. Schließen Sie die erste Trainingsrunde ab, indem Sie Elemente als relevant oder nicht relevant bezeichnen. Der nächste Schritt besteht darin, das Modell zu trainieren, indem die erste Trainingsrunde gestartet wird. Wenn Sie eine Trainingsrunde starten, wählt das Modell nach dem Zufallsprinzip zusätzliche Elemente aus dem Überprüfungssatz aus, der als Trainingssatz bezeichnet wird. Diese Elemente (sowohl aus dem Steuerelementsatz als auch aus dem Trainingssatz) werden Ihnen angezeigt, sodass Sie jede als "relevant" oder "nicht relevant" bezeichnen können. Die Relevanz basiert auf dem Inhalt des Elements und nicht auf den Dokumentmetadaten. Nachdem Sie den Bezeichnungsprozess in der Trainingsrunde abgeschlossen haben, "lernt" das Modell basierend darauf, wie Sie die Elemente im Trainingssatz bezeichnet haben. Basierend auf diesem Training verarbeitet das Modell die Elemente im Überprüfungssatz und wendet jeweils eine Vorhersagebewertung an.

    Weitere Informationen finden Sie unter Trainieren eines Vorhersagecodierungsmodells.

  3. Wenden Sie den Vorhersagebewertungsfilter auf Elemente im Überprüfungssatz an. Nachdem der vorherige Trainingsschritt abgeschlossen wurde, besteht der nächste Schritt darin, den Filter für die Vorhersagebewertung auf die Elemente in der Überprüfung anzuwenden, um die Elemente anzuzeigen, die das Modell als "relevant" ermittelt hat (alternativ können Sie auch einen Vorhersagefilter verwenden, um Elemente anzuzeigen, die "nicht relevant" sind). Wenn Sie den Vorhersagefilter anwenden, geben Sie einen Bereich von Vorhersageergebnissen an, der gefiltert werden soll. Der Bereich der Vorhersageergebnisse liegt zwischen 0 und 1, wobei 0 "nicht relevant" und 1 relevant ist. Im Allgemeinen werden Elemente mit Vorhersageergebnissen zwischen 0 und 0,5 als "nicht relevant" und Elemente mit Vorhersageergebnissen zwischen 0,5 und 1 als relevant betrachtet.

    Weitere Informationen finden Sie unter Anwenden eines Vorhersagefilters auf einen Überprüfungssatz.

  4. Führen Sie weitere Trainingsrunden durch, bis sich das Modell stabilisiert. Sie können zusätzliche Trainingsrunden durchführen, wenn Sie ein Modell mit einer höheren Vorhersagegenauigkeit und höheren Abrufraten erstellen möchten. Recall Rate misst den Anteil der Elemente, die das Modell vorhergesagt hat, unter den Elementen, die tatsächlich relevant sind (diejenigen, die Sie während des Trainings als relevant markiert haben). Die Trefferquote liegt zwischen 0 und 1. Eine Bewertung, die näher an 1 ist, gibt an, dass das Modell relevantere Elemente identifiziert. In einer neuen Trainingsrunde bezeichnen Sie zusätzliche Elemente in einem neuen Trainingssatz. Nachdem Sie diese Trainingsrunde abgeschlossen haben, wird das Modell basierend auf neuen Erkenntnissen aus Ihrer letzten Runde von Bezeichnungselementen im Trainingssatz aktualisiert. Das Modell verarbeitet die Elemente im Überprüfungssatz erneut und wendet neue Vorhersageergebnisse an. Sie können weiterhin Trainingsrunden durchführen, bis sich Ihr Modell stabilisiert hat. Ein Modell gilt als stabilisiert, wenn die Änderungsrate nach der letzten Trainingsrunde weniger als 5 % beträgt. Die Änderungsrate wird als Prozentsatz der Elemente in einem Überprüfungssatz definiert, bei dem sich die Vorhersagebewertung zwischen den Trainingsrunden geändert hat. Die Vorhersagecodierung Dashboard zeigt Informationen und Statistiken an, mit denen Sie die Stabilität eines Modells bewerten können.

  5. Wenden Sie den "finalen" Vorhersagebewertungsfilter auf Überprüfungssatzelemente an, um die Überprüfung zu priorisieren. Nachdem Sie alle Trainingsrunden abgeschlossen und das Modell stabilisiert haben, besteht der letzte Schritt darin, die endgültige Vorhersagebewertung auf den Überprüfungssatz anzuwenden, um die Überprüfung relevanter und nicht relevanter Elemente zu priorisieren. Dies ist die gleiche Aufgabe, die Sie in Schritt 3 ausgeführt haben, aber an diesem Punkt ist das Modell stabil, und Sie planen nicht, weitere Trainingsrunden durchzuführen.