Udostępnij za pośrednictwem


Zaakceptowane niestandardowe formaty danych analizy tonacji

Jeśli próbujesz zaimportować dane do niestandardowej analizy tonacji, musi ona mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.

Format pliku etykiet

Plik Labels powinien być w formacie poniżej, json który będzie używany podczas importowania etykiet do projektu.

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

Klucz Symbol zastępczy Wartość Przykład
multilingual true Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków, aby dowiedzieć się więcej o obsłudze wielojęzycznej. true
projectName {PROJECT-NAME} Nazwa projektu myproject
storageInputContainerName {CONTAINER-NAME} Nazwa kontenera mycontainer
sentimentSpans Tablica zawierająca wszystkie tonacje i ich lokalizacje w dokumencie.
documents Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie. []
location {DOCUMENT-NAME} Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, powinien to być nazwa dokumentu. doc1.txt
dataset {DATASET} Zestaw testowy, do którego ten plik zostanie podzielony przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to Train i Test. Train
offset Położenie znaku inkluzywnego początku tonacji w tekście. 0
length Długość pola ograniczenia pod względem znaków UTF16. Szkolenie uwzględnia tylko dane w tym regionie. 500
category Tonacja skojarzona z określonym zakresem tekstu. positive
offset Pozycja początkowa tekstu jednostki. 25
length Długość jednostki pod względem znaków UTF16. 20
language {LANGUAGE-CODE} Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości dokumentów. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka. en-us

Następne kroki

  • Dane z etykietami można zaimportować bezpośrednio do projektu. Dowiedz się, jak zaimportować projekt
  • Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych. Po zakończeniu etykietowania danych możesz wytrenować model.