Udostępnij za pośrednictwem


Zaakceptowane formaty danych

Jeśli próbujesz zaimportować dane do niestandardowej klasyfikacji tekstu, musi ona mieć określony format. Jeśli nie masz danych do zaimportowania, możesz utworzyć projekt i użyć programu Language Studio do etykietowania dokumentów.

Format pliku etykiet

Plik Labels powinien być w json formacie poniżej. Umożliwi to zaimportowanie etykiet do projektu.

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectKind": "CustomMultiLabelClassification",
        "storageInputContainerName": "{CONTAINER-NAME}",
        "projectName": "{PROJECT-NAME}",
        "multilingual": false,
        "description": "Project-description",
        "language": "en-us"
    },
    "assets": {
        "projectKind": "CustomMultiLabelClassification",
        "classes": [
            {
                "category": "Class1"
            },
            {
                "category": "Class2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "classes": [
                    {
                        "category": "Class1"
                    },
                    {
                        "category": "Class2"
                    }
                ]
            }
        ]
    }
}
Klucz Symbol zastępczy Wartość Przykład
wielojęzyczny true Wartość logiczna, która umożliwia posiadanie dokumentów w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie zawarte w dokumentach szkoleniowych). Zobacz Obsługa języków, aby dowiedzieć się więcej o obsłudze wielojęzycznej. true
projectName {PROJECT-NAME} Nazwa projektu mój projekt
storageInputContainerName {CONTAINER-NAME} Nazwa kontenera mycontainer
obiektów [] Tablica zawierająca wszystkie klasy, które znajdują się w projekcie. Są to klasy, do których chcesz sklasyfikować dokumenty. []
documents [] Tablica zawierająca wszystkie dokumenty w projekcie i klasy oznaczone dla tego dokumentu. []
lokalizacja {DOCUMENT-NAME} Lokalizacja dokumentów w kontenerze magazynu. Ponieważ wszystkie dokumenty znajdują się w katalogu głównym kontenera, ta wartość powinna być nazwą dokumentu. doc1.txt
zestaw danych {DATASET} Zestaw testowy, do którego ten plik zostanie podzielony przed rozpoczęciem trenowania. Aby uzyskać więcej informacji, zobacz Jak wytrenować model . Możliwe wartości dla tego pola to Train i Test. Train

Następne kroki

  • Dane z etykietami można zaimportować bezpośrednio do projektu. Zobacz Jak utworzyć projekt , aby dowiedzieć się więcej na temat importowania projektów.
  • Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych. Po zakończeniu etykietowania danych możesz wytrenować model.