Konfigurieren der optionalen Elementverarbeitung
Letzte Änderung: Dienstag, 16. August 2011
Gilt für: SharePoint Server 2010
Inhalt dieses Artikels
Anpassen von "optionalprocessing.xml"
Dateiformat für "optionalprocessing.xml"
Eigenschaftenextraktion
Dokumentkonvertierung
Filterung von anstößigen Inhalten
In diesem Thema wird beschrieben, wie Sie die Konfigurationsdatei für die optionalen Elementverarbeitungsphasen in der Pipeline aktualisieren:
Anpassen von "optionalprocessing.xml"
Die optionalen Elementverarbeitungsphasen schalten Sie in der Konfigurationsdatei optionalprocessing.xml ein oder aus.
Diese Konfigurationsdatei wird bei jedem Zurücksetzen, Starten oder Neustarten der Elementprozessoren gelesen. Die Datei muss den Namen und den Aktivierungsstatus für jede optionale Phase enthalten. Standardmäßig sind alle optionalen Verarbeitungsphasen deaktiviert.
Zum Ändern dieser Konfigurationsdatei müssen Sie Mitglied der lokalen Gruppe FASTSearchAdministrators auf dem Verwaltungsknoten für FAST Search Server 2010 for SharePoint sein.
Hinweis |
---|
Sie können optionale Elementverarbeitungsphasen mithilfe von optionalprocessing.xml aktivieren oder deaktivieren. Sie können diese Datei jedoch nicht verwenden, um der Pipeline neue Phasen hinzuzufügen. Informationen zum Erstellen einer Phase finden Sie unter Integrieren einer externen Komponente für die Elementverarbeitung. |
Verwenden Sie einen Text-Editor oder einen XML-Editor, um diese Datei zu bearbeiten.
So ändern Sie die Datei optionalprocessing.xml
Bearbeiten Sie auf dem Verwaltungsknoten für FAST Search Server 2010 for SharePoint die Datei %FASTSEARCH%\etc\config_data\DocumentProcessor\OptionalProcessing.xml.
Führen Sie auf dem Verwaltungsknoten für FAST Search Server 2010 for SharePoint den folgenden Befehl aus.
%FASTSEARCH%\bin\psctrl reset
Dadurch werden alle derzeit ausgeführten Elementprozessoren im System zurückgesetzt.
Dateiformat für "optionalprocessing.xml"
Die Konfigurationsdatei optionalprocessing.xml hat die folgende Syntax:
<optionalprocessing>
<processor name="personnameextraction" active="yes|no" />
<processor name="XMLMapper" active="yes|no" />
<processor name="OffensiveContentFilter" active="yes|no" />
<processor name="FFDDumper" active="yes|no" />
<processor name="wholewordsextractor1" active="yes|no" />
<processor name="wholewordsextractor2" active="yes|no" />
<processor name="wholewordsextractor3" active="yes|no" />
<processor name="wordpartextractor1" active="yes|no" />
<processor name="wordpartextractor2" active="yes|no" />
<processor name="SearchExportConverter" active="yes|no" />
</optionalprocessing>
Hinweis |
---|
Sie dürfen in dieser Datei keine Einträge hinzufügen oder entfernen. Ändern Sie lediglich den Wert des active-Attributs für die einzelnen processor-Elemente. |
In Tabelle 1 werden die optionalen Elementverarbeitungsphasen beschrieben.
Tabelle 1. Optionale Elementverarbeitungsphasen
Name der optionalen Phase |
Beschreibung |
||
---|---|---|---|
personnameextraction |
Aktiviert die integrierte Eigenschaftenextraktion für Personennamen. Weitere Informationen finden Sie unter Eigenschaftenextraktion. |
||
XMLMapper |
Aktiviert die Zuordnung von XML-Inhalten durch benutzerdefinierte Zuordnung von XML-Elementen zu durchforsteten Eigenschaften. Weitere Informationen finden Sie unter Benutzerdefinierte XML-Elementverarbeitung. |
||
OffensiveContentFilter |
Aktiviert die integrierte Filterung von anstößigen Inhalten. Mit diesem Feature werden Elemente entfernt, die pornografische Inhalte enthalten. Weitere Informationen finden Sie unter Filterung von anstößigen Inhalten. |
||
FFDDumper |
Gibt die Phase für erweitertes Debuggen für die Elementverarbeitungspipeline an. Diese Phase müssen Sie im Regelfall nicht aktivieren. Sie sollten diese Phase nur während des Testens verwenden, da sie erhebliche Auswirkungen auf die Feedrate hat und rasch zu einer vollständigen Belegung der lokalen Festplatte (%FASTSEARCH\data\ffd\) führen kann. |
||
wholewordsextractor1, wholewordsextractor2, wholewordsextractor3 |
Gibt die drei verfügbaren Eigenschaftenextraktionsphasen für den Abgleich von ganzen Wörtern an. Weitere Informationen finden Sie unter Erstellen eines benutzerdefinierten Eigenschaftenextraktionsmoduls. |
||
wordpartextractor1, wordpartextractor2 |
Gibt die zwei verfügbaren Eigenschaftenextraktionsphasen für den Abgleich von Wortteilen an. Weitere Informationen finden Sie unter Erstellen eines benutzerdefinierten Eigenschaftenextraktionsmoduls. |
||
SearchExportConverter |
Aktiviert die Konvertierung von zusätzlichen Dokumentformaten. Weitere Informationen finden Sie unter Dokumentkonvertierung.
|
Im folgenden Beispiel wird veranschaulicht, wie Sie die Generierung einer durchforsteten Eigenschaft personnames aktivieren, die Personennamen enthält, die aus den verarbeiteten Inhalten extrahiert wurden. Diese Phase aktivieren Sie, indem Sie den Wert des active-Attributs auf yes ändern.
<optionalprocessing>
<processor name="personnameextraction" active="yes"/>
</optionalprocessing>
Im folgenden Beispiel wird gezeigt, wie Sie die Zuordnung von XML-Inhalten zu durchforsteten Eigenschaften aktivieren.
<optionalprocessing>
<processor name="XMLMapper" active="yes"/>
</optionalprocessing>
Hinweis |
---|
Die XMLMapper-Verarbeitungsphase erfordert eine zusätzliche Konfigurationsdatei für die XML-Zuordnung. Informationen hierzu finden Sie unter Benutzerdefinierte XML-Elementverarbeitung. |
Eigenschaftenextraktion
Die Eigenschaftenextraktion ist ein Prozess, bei dem Informationen aus dem sichtbaren textlichen Inhalt eines Elements extrahiert und als zusätzliche durchforstete Eigenschaften für das Dokument gespeichert werden.
Die FAST Search Server 2010 for SharePointElementverarbeitungspipeline umfasst drei integrierte Eigenschaftenextraktionsphasen, die folgende Aktionen ausführen:
Das Extraktionsmodul für Personennamen extrahiert Namen von Personen auf der Grundlage eines generischen Wörterbuchs. Diese Phase ist standardmäßig deaktiviert, da FAST Search Server 2010 for SharePoint andere Features für die Extraktion von Personennamen enthält (die author-Eigenschaft und das Feature Personensuche). Wenn auch Namen extrahiert werden sollen, die zu Ihrer Firma oder Organisation gehören, können Sie diese Phase in optionalprocessing.xml aktivieren.
Das Extraktionsmodul für Standorte extrahiert Namen von geografischen Orten auf der Grundlage eines generischen Wörterbuchs. Diese Phase ist immer aktiviert. Wenn diese Eigenschaftenextraktion für Ihre Anwendung nicht relevant ist, müssen Sie die daraus resultierende durchforstete Eigenschaft nicht einer verwalteten Eigenschaft im Index zuordnen.
Das Extraktionsmodul für Firmen extrahiert die Namen von Firmen auf der Grundlage eines generischen Wörterbuchs. Diese Phase ist immer aktiviert. Wenn diese Eigenschaftenextraktion für Ihre Anwendung nicht relevant ist, müssen Sie die daraus resultierende durchforstete Eigenschaft nicht einer verwalteten Eigenschaft im Index zuordnen.
Folgende Sprachen werden von den integrierten Eigenschaftenextraktionsphasen unterstützt:
Arabisch
Niederländisch
Englisch
Französisch
Deutsch
Italienisch
Japanisch
Norwegisch
Portugiesisch
Russisch
Spanisch
Sie können die integrierten Eigenschaftenextraktionsmodule ändern, indem Sie Aufnahmelisten und Ausschlusslisten hinzufügen. Weitere Informationen finden Sie unter Verwalten der Eigenschaftenextraktion (FAST Search Server 2010 für SharePoint) im Microsoft TechNet.
Sie können der Pipeline auch benutzerdefinierte Eigenschaftenextraktionsmodule hinzufügen. Dazu aktivieren Sie eine oder mehrere benutzerdefinierte Platzhalter-Elementverarbeitungsphasen in optionalprocessing.xml und erstellen zugeordnete Wörterbücher. Weitere Informationen finden Sie unter Erstellen eines benutzerdefinierten Eigenschaftenextraktionsmoduls.
Dokumentkonvertierung
Mit der Verarbeitungsphase SearchExportConverter wird FAST Search Server 2010 for SharePoint Advanced Filter Pack gesteuert. Dieses Feature ermöglicht die Text- und Metadatenextraktion aus Hunderten von Dateiformaten, die die vom standardmäßigen Filter Pack unterstützten Dokumentformate ergänzen. Advanced Filter Pack ist standardmäßig deaktiviert.
Hinweis |
---|
Aktivieren oder deaktivieren Sie dieses Feature nicht direkt in der Konfigurationsdatei optionalprocessing.xml. Führen Sie stattdessen das Verfahren aus, das unter Aktivieren von Advanced Filter Pack (FAST Search Server 2010 für SharePoint) im Microsoft TechNet beschrieben wird. |
Sie können auch benutzerdefinierte IFilter-Komponenten bereitstellen, die für spezielle Dateiformate entwickelt wurden. Dieser Vorgang wird über die Konfigurationsdatei user_converter_rules.xml gesteuert. Weitere Informationen finden Sie unter Konfigurieren von FAST Search Server für SharePoint für die Verwendung eines IFilters eines Drittanbieters.
Filterung von anstößigen Inhalten
Die Filterung von anstößigen Inhalten in FAST Search Server 2010 for SharePoint ist als separate Elementverarbeitungsphase implementiert. Elementinhalte, die den Filter durchlaufen, werden mit vordefinierten Begriffen in Wörterbüchern abgeglichen. Die Ausgabe des Filters ist eine allgemeine Bewertung, die die Wahrscheinlichkeit angibt, dass es sich bei einem Element um pornografische Inhalte handelt. Die Bewertung für die Anstößigkeit des Elements wird in die durchforstete Eigenschaft OCF::Score geschrieben. Jedes Element, das den Schwellenwert 30 überschreitet, wird aus der Indizierung ausgeschlossen.
In der Filterung von anstößigen Inhalten in FAST Search Server 2010 for SharePoint werden einzelne Wörter und aus mehreren Wörtern bestehende Ausdrücke als Grundlage für die Filterung herangezogen.
Der Filter für anstößige Inhalte ist standardmäßig nicht aktiviert. Sie können ihn mithilfe des Aktivierungsschlüssels OffensiveContentFilter in optionalprocessing.xml aktivieren, wie im folgenden Beispiel gezeigt.
<optionalprocessing>
<processor name="OffensiveContentFilter" active="yes"/>
</optionalprocessing>
Hinweis |
---|
Im Filter für anstößige Inhalte werden keine Websiteinformationen verwendet und keine visuellen Informationen (Bilder) berücksichtigt. Die Funktion beschränkt sich auf Seiten, die anstößigen Text enthalten. Für solche Seiten bietet der Filter eine äußerst hohe Erkennungsquote. |
Sie können die Filterung von anstößigen Inhalten für folgende Sprachen aktivieren:
Arabisch
Chinesisch
Tschechisch
Englisch
Finnisch
Französisch
Deutsch
Hindi
Italienisch
Japanisch
Koreanisch
Litauisch
Norwegisch
Russisch
Spanisch
Schwedisch
Türkisch
Der Filter für anstößige Inhalte durchsucht die durchforsteten Eigenschaften title, body und ocfcontribution. Letztere Eigenschaft wird nicht von den Crawlern festgelegt, sondern kann zum Scannen von zusätzlichen Inhalten verwendet werden.
Elemente, die als pornografisch gelten, werden während der Verarbeitung ausgeklammert, und entsprechendes Feedback wird an den Indizierungskonnektor gesendet.
Siehe auch
Konzepte
Erstellen eines benutzerdefinierten Eigenschaftenextraktionsmoduls
Benutzerdefinierte XML-Elementverarbeitung
Integrieren einer externen Komponente für die Elementverarbeitung