Zaakceptowane niestandardowe formaty danych analizy tonacji
Jeśli próbujesz zaimportować dane do niestandardowej analizy tonacji, musi ona mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.
Format pliku etykiet
Plik Labels powinien być w formacie poniżej, json
który będzie używany podczas importowania etykiet do projektu.
{
"projectFileVersion": "2023-04-15-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomTextSentiment",
"storageInputContainerName": "custom-sentiment-2",
"projectName": "sa-test",
"multilingual": false,
"description": "",
"language": "en-us"
},
"assets": {
"projectKind": "CustomTextSentiment",
"documents": [
{
"location": "document_1.txt",
"language": "en-us",
"sentimentSpans": [
{
"category": "positive",
"offset": 0,
"length": 60
},
{
"category": "neutral",
"offset": 61,
"length": 31
}
],
"dataset": "Train"
},
{
"location": "document_2.txt",
"language": "en-us",
"sentimentSpans": [
{
"category": "positive",
"offset": 0,
"length": 50
},
{
"category": "positive",
"offset": 51,
"length": 49
},
{
"category": "positive",
"offset": 101,
"length": 26
}
],
"dataset": "Train"
}
]
}
}
Klucz | Symbol zastępczy | Wartość | Przykład |
---|---|---|---|
multilingual |
true |
Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków, aby dowiedzieć się więcej o obsłudze wielojęzycznej. | true |
projectName |
{PROJECT-NAME} |
Nazwa projektu | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nazwa kontenera | mycontainer |
sentimentSpans |
Tablica zawierająca wszystkie tonacje i ich lokalizacje w dokumencie. | ||
documents |
Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie. | [] | |
location |
{DOCUMENT-NAME} |
Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, powinien to być nazwa dokumentu. | doc1.txt |
dataset |
{DATASET} |
Zestaw testowy, do którego ten plik zostanie podzielony przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to Train i Test . |
Train |
offset |
Położenie znaku inkluzywnego początku tonacji w tekście. | 0 |
|
length |
Długość pola ograniczenia pod względem znaków UTF16. Szkolenie uwzględnia tylko dane w tym regionie. | 500 |
|
category |
Tonacja skojarzona z określonym zakresem tekstu. | positive |
|
offset |
Pozycja początkowa tekstu jednostki. | 25 |
|
length |
Długość jednostki pod względem znaków UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości dokumentów. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka. | en-us |
Następne kroki
- Dane z etykietami można zaimportować bezpośrednio do projektu. Dowiedz się, jak zaimportować projekt
- Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych. Po zakończeniu etykietowania danych możesz wytrenować model.