Formatieren von Daten für Erkennung benannter Entitäten (NER)
NER-Dataset-Formen:
- Schlüsselinformationsdatei: Die Schlüsselinformationsdatei enthält eine Liste von Entitäten, die als wichtige Informationen für die Trainingsdaten dient.
- Trainingsdaten: Trainingsdaten bestehen aus einer Datei (.txt, .tsv), die durch TAB-Zeichen getrennte Spalten enthält. Eine dieser Spalten ist eine Satzspalte, während die anderen Bezeichnungen für Token in dieser Satzspalte darstellen.
Zusammenarbeit auf GitHub
Die Quelle für diesen Inhalt finden Sie auf GitHub, wo Sie auch Issues und Pull Requests erstellen und überprüfen können. Weitere Informationen finden Sie in unserem Leitfaden für Mitwirkende.