Zaakceptowane niestandardowe formaty danych NER
Jeśli próbujesz zaimportować dane do niestandardowego modułu NER, musi on mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.
Format pliku etykiet
Plik Labels powinien być w formacie poniżej, json
który będzie używany podczas importowania etykiet do projektu.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Klucz | Symbol zastępczy | Wartość | Przykład |
---|---|---|---|
multilingual |
true |
Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków, aby dowiedzieć się więcej o obsłudze wielojęzycznej. | true |
projectName |
{PROJECT-NAME} |
Nazwa projektu | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nazwa kontenera | mycontainer |
entities |
Tablica zawierająca wszystkie typy jednostek, które znajdują się w projekcie. Są to typy jednostek, które zostaną wyodrębnione z dokumentów. | ||
documents |
Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie. | [] | |
location |
{DOCUMENT-NAME} |
Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, powinien to być nazwa dokumentu. | doc1.txt |
dataset |
{DATASET} |
Zestaw testowy, do którego ten plik zostanie podzielony przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to Train i Test . |
Train |
regionOffset |
Położenie znaku inkluzywnego początku tekstu. | 0 |
|
regionLength |
Długość pola ograniczenia pod względem znaków UTF16. Szkolenie uwzględnia tylko dane w tym regionie. | 500 |
|
category |
Typ jednostki skojarzonej z określonym zakresem tekstu. | Entity1 |
|
offset |
Pozycja początkowa tekstu jednostki. | 25 |
|
length |
Długość jednostki pod względem znaków UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości dokumentów. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka. | en-us |
Następne kroki
- Dane z etykietami można zaimportować bezpośrednio do projektu. Dowiedz się, jak zaimportować projekt
- Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych. Po zakończeniu etykietowania danych możesz wytrenować model.