Zaakceptowane niestandardowe formaty danych analizy tonacji

Artykuł
11/21/2024

Jeśli próbujesz zaimportować dane do niestandardowej analizy tonacji, musi ona mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.

Format pliku etykiet

Plik Labels powinien być w formacie poniżej, json który będzie używany podczas importowania etykiet do projektu.

{
    "projectFileVersion": "2023-04-15-preview",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomTextSentiment",
        "storageInputContainerName": "custom-sentiment-2",
        "projectName": "sa-test",
        "multilingual": false,
        "description": "",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomTextSentiment",
        "documents": [
            {
                "location": "document_1.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 60
                    },
                    {
                        "category": "neutral",
                        "offset": 61,
                        "length": 31
                    }
                ],
                "dataset": "Train"
            },
            {
                "location": "document_2.txt",
                "language": "en-us",
                "sentimentSpans": [
                    {
                        "category": "positive",
                        "offset": 0,
                        "length": 50
                    },
                    {
                        "category": "positive",
                        "offset": 51,
                        "length": 49
                    },
                    {
                        "category": "positive",
                        "offset": 101,
                        "length": 26
                    }
                ],
                "dataset": "Train"
            }
        ]
    }
}

Klucz	Symbol zastępczy	Wartość	Przykład
`multilingual`	`true`	Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków, aby dowiedzieć się więcej o obsłudze wielojęzycznej.	`true`
`projectName`	`{PROJECT-NAME}`	Nazwa projektu	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	Nazwa kontenera	`mycontainer`
`sentimentSpans`		Tablica zawierająca wszystkie tonacje i ich lokalizacje w dokumencie.
`documents`		Tablica zawierająca wszystkie dokumenty w projekcie i listę jednostek oznaczonych w każdym dokumencie.	[]
`location`	`{DOCUMENT-NAME}`	Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, powinien to być nazwa dokumentu.	`doc1.txt`
`dataset`	`{DATASET}`	Zestaw testowy, do którego ten plik zostanie podzielony przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to `Train` i `Test`.	`Train`
`offset`		Położenie znaku inkluzywnego początku tonacji w tekście.	`0`
`length`		Długość pola ograniczenia pod względem znaków UTF16. Szkolenie uwzględnia tylko dane w tym regionie.	`500`
`category`		Tonacja skojarzona z określonym zakresem tekstu.	`positive`
`offset`		Pozycja początkowa tekstu jednostki.	`25`
`length`		Długość jednostki pod względem znaków UTF16.	`20`
`language`	`{LANGUAGE-CODE}`	Ciąg określający kod języka dokumentu używanego w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości dokumentów. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka.	`en-us`

Następne kroki

Dane z etykietami można zaimportować bezpośrednio do projektu. Dowiedz się, jak zaimportować projekt
Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych. Po zakończeniu etykietowania danych możesz wytrenować model.

Udostępnij za pośrednictwem

Zaakceptowane niestandardowe formaty danych analizy tonacji

Format pliku etykiet

Następne kroki

Opinia

Dodatkowe zasoby