Trenowanie i testowanie zestawów danych
W projekcie mowy niestandardowej można przekazywać zestawy danych na potrzeby trenowania, inspekcji jakościowej i pomiaru ilościowego. W tym artykule opisano typy danych szkoleniowych i testowych, których można używać na potrzeby mowy niestandardowej.
Tekst i dźwięk używany do testowania i trenowania modelu niestandardowego powinny zawierać przykłady z zróżnicowanego zestawu głośników i scenariuszy, które mają być rozpoznawane przez model. Podczas zbierania danych na potrzeby testowania i trenowania modelu niestandardowego należy wziąć pod uwagę następujące czynniki:
- Uwzględnij dane tekstowe i audio, aby uwzględnić rodzaje wypowiedzi słownych, które użytkownicy tworzą podczas interakcji z modelem. Na przykład model, który podnosi i obniża temperaturę, musi trenować instrukcje, które użytkownicy mogą wprowadzić w celu zażądania takich zmian.
- Uwzględnij wszystkie wariancji mowy, które mają być rozpoznawane przez model. Wiele czynników może różnić się mową, w tym akcentami, dialektami, mieszaniem języka, wiekiem, płcią, skokiem głosu, poziomem stresu i godziną dnia.
- Dołącz próbki z różnych środowisk, na przykład w pomieszczeniach, na zewnątrz i na zewnątrz, gdzie używany jest model.
- Nagrywaj dźwięk przy użyciu urządzeń sprzętowych używanych przez system produkcyjny. Jeśli model musi identyfikować mowę zarejestrowaną na urządzeniach o różnej jakości, dane audio, które udostępniasz do trenowania modelu, muszą również reprezentować te zróżnicowane scenariusze.
- Zachowaj zróżnicowany zestaw danych i reprezentatywny dla wymagań projektu. Później możesz dodać więcej danych do modelu.
- Uwzględnij tylko dane, których model potrzebuje do transkrypcji. Uwzględnienie danych, które nie należą do wymagań dotyczących rozpoznawania modelu niestandardowego, może zaszkodzić ogólnej jakości rozpoznawania.
Typy danych
W poniższej tabeli wymieniono akceptowane typy danych, kiedy należy używać poszczególnych typów danych i zalecaną ilość. Nie każdy typ danych jest wymagany do utworzenia modelu. Wymagania dotyczące danych różnią się w zależności od tego, czy tworzysz test, czy trenujesz model.
Typ danych | Używany do testowania | Zalecane do testowania | Używany do trenowania | Zalecane do trenowania |
---|---|---|---|---|
Tylko dźwięk | Tak (inspekcja wizualna) | 5+ pliki audio | Tak (wersja zapoznawcza dla en-US ) |
1–100 godzin dźwięku |
Audio i transkrypcje oznaczone przez człowieka | Tak (ocena dokładności) | 0,5–5 godz. dźwięku | Tak | 1–100 godzin dźwięku |
Zwykły tekst | Nie. | Nie dotyczy | Tak | 1–200 MB powiązanego tekstu |
Tekst ustrukturyzowany | Nie. | Nie dotyczy | Tak | Maksymalnie 10 klas z maksymalnie 4000 elementami i maksymalnie 50 000 zdań treningowych |
Wymowa | Nie. | Nie dotyczy | Tak | Od 1 KB do 1 MB tekstu wymowy |
Format wyświetlania | Nie. | Nie dotyczy | Tak | Do 200 wierszy dla ITN, 1000 wierszy do ponownego zapisywania, 1000 wierszy dla filtru wulgaryzmów |
Trenowanie przy użyciu zwykłego tekstu lub tekstu strukturalnego zwykle kończy się w ciągu kilku minut.
Napiwek
Zacznij od danych w postaci zwykłego tekstu lub danych tekstowych ze strukturą. Te dane poprawią rozpoznawanie specjalnych terminów i fraz. Trenowanie przy użyciu tekstu jest znacznie szybsze niż trenowanie przy użyciu dźwięku (w minutach i dniach).
Zacznij od małych zestawów przykładowych danych, które pasują do języka, akustyki i sprzętu, w którym będzie używany model. Małe zestawy danych reprezentatywnych mogą ujawnić problemy przed zainwestowaniem w zbieranie większych zestawów danych na potrzeby trenowania. Aby uzyskać przykładowe dane mowy niestandardowej, zobacz to repozytorium GitHub.
W przypadku trenowania modelu niestandardowego przy użyciu danych audio wybierz region zasobów usługi Mowa z dedykowanym sprzętem do trenowania danych audio. Aby uzyskać więcej informacji, zobacz przypisy dolne w tabeli regionów . W regionach z dedykowanym sprzętem do trenowania mowy niestandardowej usługa mowa używa do 100 godzin danych treningowych dźwięku i może przetwarzać około 10 godzin danych dziennie. Po wytrenowanym modelu możesz skopiować model do innego regionu zgodnie z potrzebami przy użyciu interfejsu API REST Models_CopyTo .
Rozważ zestawy danych według scenariusza
Model wytrenowany w podzestawie scenariuszy może działać dobrze tylko w tych scenariuszach. Starannie wybieraj dane reprezentujące pełny zakres scenariuszy, które są potrzebne do rozpoznawania modelu niestandardowego. W poniższej tabeli przedstawiono zestawy danych, które należy wziąć pod uwagę w przypadku niektórych scenariuszy rozpoznawania mowy:
Scenariusz | Dane zwykłego tekstu i dane tekstowe ze strukturą | Audio i transkrypcje oznaczone przez człowieka | Nowe słowa z wymową |
---|---|---|---|
Biuro obsługi | Dokumenty marketingowe, witryna internetowa, przeglądy produktów związane z działaniami centrum telefonicznego | Połączenia z centrum telefonicznego transkrypcji przez ludzi | Terminy, które mają niejednoznaczną wymowę (zobacz przykład xbox w poprzedniej sekcji) |
Asystent głosowy | Listy zdań, które używają różnych kombinacji poleceń i jednostek | Nagrane głosy mówiące polecenia na urządzeniu, transkrybowane w tekście | Nazwy (filmy, piosenki, produkty), które mają unikatową wymowę |
Dyktowanie | Zapisane dane wejściowe, takie jak wiadomości błyskawiczne lub wiadomości e-mail | Podobnie jak w poprzednich przykładach | Podobnie jak w poprzednich przykładach |
Napisy wideo | Programy telewizyjne, filmy, treści marketingowe, podsumowania wideo | Dokładne transkrypcje wideo | Podobnie jak w poprzednich przykładach |
Aby ułatwić określenie, którego zestawu danych użyć do rozwiązywania problemów, zapoznaj się z następującą tabelą:
Przypadek użycia | Typ danych |
---|---|
Zwiększ dokładność rozpoznawania słownictwa i gramatyki specyficznego dla branży, takiego jak terminologia medyczna lub żargon IT. | Zwykły tekst lub dane tekstowe ze strukturą |
Zdefiniuj fonetyczną i wyświetlaną formę słowa lub terminu, który ma niestandardową wymowę, taką jak nazwy produktów lub akronimy. | Dane wymowy lub wymowa fonetyczna w tekście ustrukturyzowanym |
Zwiększ dokładność rozpoznawania stylów mówienia, akcentów lub konkretnych szumów tła. | Audio i transkrypcje oznaczone przez człowieka |
Audio i dane transkrypcji oznaczone przez człowieka na potrzeby trenowania lub testowania
Dane transkrypcji oznaczone przez człowieka można używać zarówno do celów szkoleniowych, jak i testowych . Aby porównać, musisz podać transkrypcje oznaczone przez człowieka (wyraz po słowie):
- Aby poprawić aspekty akustyczne, takie jak niewielkie akcenty, style mówienia i szumy tła.
- Aby zmierzyć dokładność mowy firmy Microsoft z dokładnością tekstu, przetwarza pliki audio.
Aby uzyskać listę modeli podstawowych, które obsługują trenowanie przy użyciu danych audio, zobacz Obsługa języka. Nawet jeśli model podstawowy obsługuje trenowanie przy użyciu danych audio, usługa może używać tylko części dźwięku. I nadal używa wszystkich transkrypcji.
Ważne
Jeśli model podstawowy nie obsługuje dostosowywania z danymi audio, do trenowania będzie używany tylko tekst transkrypcji. Jeśli przejdziesz do modelu podstawowego, który obsługuje dostosowywanie przy użyciu danych audio, czas trenowania może wzrosnąć z kilku godzin do kilku dni. Zmiana czasu trenowania byłaby najbardziej zauważalna, gdy przełączysz się do modelu podstawowego w regionie bez dedykowanego sprzętu do trenowania. Jeśli dane audio nie są wymagane, należy je usunąć, aby skrócić czas trenowania.
Dźwięk z transkrypcjami oznaczonymi przez człowieka zapewnia największą dokładność, jeśli dźwięk pochodzi z docelowego przypadku użycia. Przykłady muszą obejmować pełny zakres mowy. Na przykład centrum telefoniczne dla sklepu detalicznego otrzyma najwięcej połączeń dotyczących strojów kąpielowych i okularów przeciwsłonecznych w miesiącach letnich. Upewnij się, że twój przykład obejmuje pełny zakres mowy, który chcesz wykryć.
Rozważ następujące szczegóły:
- Trenowanie za pomocą dźwięku przynosi największe korzyści, jeśli dźwięk jest również trudny do zrozumienia dla ludzi. W większości przypadków należy rozpocząć trenowanie przy użyciu tylko powiązanego tekstu.
- Jeśli używasz jednego z najbardziej używanych języków, takich jak angielski USA, jest mało prawdopodobne, aby trzeba było trenować przy użyciu danych dźwiękowych. W przypadku takich języków modele podstawowe oferują już dobre wyniki rozpoznawania w większości scenariuszy, więc prawdopodobnie wystarczy trenować przy użyciu powiązanego tekstu.
- Niestandardowa mowa może przechwytywać kontekst słów tylko w celu zmniejszenia błędów podstawiania, a nie błędów wstawiania ani usuwania.
- Unikaj przykładów, które zawierają błędy transkrypcji, ale obejmują różnorodność jakości dźwięku.
- Unikaj zdań niepowiązanych z domeną problemu. Niepowiązane zdania mogą zaszkodzić modelowi.
- Gdy jakość transkrypcji różni się, można zduplikować wyjątkowo dobre zdania, takie jak doskonałe transkrypcje, które zawierają kluczowe frazy, aby zwiększyć ich wagę.
- Usługa rozpoznawania mowy automatycznie używa transkrypcji, aby poprawić rozpoznawanie wyrazów i fraz specyficznych dla domeny, tak jakby zostały dodane jako powiązany tekst.
- Ukończenie operacji treningowej może potrwać kilka dni. Aby zwiększyć szybkość trenowania, pamiętaj o utworzeniu subskrypcji usługi Mowa w regionie z dedykowanym sprzętem do trenowania.
Do poprawy rozpoznawania jest wymagany duży zestaw danych szkoleniowych. Ogólnie rzecz biorąc, zalecamy podanie transkrypcji word-by-word przez 1 do 100 godzin dźwięku (do 20 godzin dla starszych modeli, które nie pobierają opłat za szkolenie). Jednak nawet nawet 30 minut może pomóc poprawić wyniki rozpoznawania. Chociaż tworzenie transkrypcji oznaczonej przez człowieka może zająć trochę czasu, ulepszenia rozpoznawania są tak dobre, jak podane dane. Należy przekazać tylko transkrypcje wysokiej jakości.
Pliki audio mogą mieć milczenie na początku i na końcu nagrania. Jeśli to możliwe, uwzględnij co najmniej połowę sekundy ciszy przed i po wystąpieniu mowy w każdym przykładowym pliku. Chociaż dźwięk z małą ilością głośności lub zakłócającym hałasem w tle nie jest przydatny, nie powinien ograniczać ani obniżać poziomu wydajności modelu niestandardowego. Przed zebraniem przykładów dźwiękowych należy zawsze rozważyć uaktualnienie mikrofonów i sprzętu przetwarzania sygnałów.
Ważne
Aby uzyskać więcej informacji na temat najlepszych rozwiązań dotyczących przygotowywania transkrypcji oznaczonych przez człowieka, zobacz Transkrypcje oznaczone etykietami ludzkimi z dźwiękiem.
Niestandardowe projekty mowy wymagają plików audio z następującymi właściwościami:
Ważne
Są to wymagania dotyczące uczenia i testowania transkrypcji oznaczonego przez człowieka audio i człowieka. Różnią się one od tych, które są przeznaczone tylko do trenowania i testowania audio. Jeśli chcesz używać trenowania i testowania tylko audio, zobacz tę sekcję.
Właściwości | Wartość |
---|---|
File format | RIFF (WAV) |
Częstotliwość próbkowania | 8000 Hz lub 16 000 Hz |
Kanały | 1 (mono) |
Maksymalna długość na dźwięk | Dwie godziny (testowanie) / 40 s (szkolenie) Trenowanie przy użyciu dźwięku ma maksymalną długość dźwięku wynoszącą 40 sekund na plik (do 30 sekund w przypadku dostosowywania szeptu). W przypadku plików audio dłuższych niż 40 sekund do trenowania jest używany tylko odpowiedni tekst z plików transkrypcji. Jeśli wszystkie pliki audio są dłuższe niż 40 sekund, trenowanie kończy się niepowodzeniem. |
Format próbki | PCM, 16-bitowy |
Format archiwum | .zip |
Maksymalny rozmiar pliku zip | 2 GB lub 10 000 plików |
Dane zwykłego tekstu na potrzeby trenowania
Możesz dodać zdania zwykłego tekstu powiązanego tekstu, aby poprawić rozpoznawanie wyrazów i fraz specyficznych dla domeny. Powiązane zdania tekstowe mogą ograniczać błędy podstawiania związane z błędną poznawaniem typowych słów i wyrazów specyficznych dla domeny, pokazując je w kontekście. Słowa specyficzne dla domeny mogą być nietypowe lub zmyślone, ale ich wymowa musi być prosta do rozpoznania.
Podaj zdania związane z domeną w jednym pliku tekstowym. Użyj danych tekstowych, które są zbliżone do oczekiwanych wypowiedzi mówionych. Wypowiedzi nie muszą być kompletne ani poprawne gramatyczne, ale muszą dokładnie odzwierciedlać mówione dane wejściowe, których oczekujesz, że model zostanie rozpoznany. Jeśli to możliwe, spróbuj kontrolować jedno zdanie lub słowo kluczowe w osobnym wierszu. Aby zwiększyć wagę terminu, takiego jak nazwy produktów, dodaj kilka zdań, które zawierają termin. Nie kopiuj ich jednak zbyt wielu — może to mieć wpływ na ogólną szybkość rozpoznawania.
Uwaga
Unikaj powiązanych zdań tekstowych, które zawierają szumy, takie jak nierozpoznawalne znaki lub wyrazy.
Użyj tej tabeli, aby upewnić się, że plik zestawu danych w postaci zwykłego tekstu jest poprawnie sformatowany:
Właściwości | Wartość |
---|---|
Kodowanie tekstu | UTF-8 BOM |
Liczba wypowiedzi na wiersz | 1 |
Maksymalna wielkość pliku | 200 MB |
Należy również przestrzegać następujących ograniczeń:
- Unikaj powtarzania znaków, wyrazów lub grup wyrazów więcej niż trzy razy. Na przykład nie używaj "aaaa", "tak tak", czy "to jest to, że to jest to to, że to jest to to, że to jest to to". Usługa rozpoznawania mowy może usuwać wiersze z zbyt wieloma powtórzeniami.
- Nie używaj znaków specjalnych ani znaków UTF-8 powyżej
U+00A1
. - Identyfikatory URI będą odrzucane.
- W przypadku niektórych języków, takich jak japoński lub koreański, importowanie dużych ilości danych tekstowych może zająć dużo czasu lub może upłynąć dłużej. Rozważ podzielenie zestawu danych na wiele plików tekstowych z maksymalnie 20 000 wierszy w każdym z nich.
Dane tekstowe ze strukturą na potrzeby trenowania
Uwaga
Dane tekstowe ze strukturą na potrzeby trenowania są w publicznej wersji zapoznawczej.
Użyj danych tekstowych ze strukturą, gdy dane są zgodne z określonym wzorcem w określonych wypowiedziach, które różnią się tylko słowami lub frazami z listy. Aby uprościć tworzenie danych treningowych i umożliwić lepsze modelowanie wewnątrz modelu języka niestandardowego, możesz użyć tekstu strukturalnego w formacie Markdown, aby zdefiniować listy elementów i fonetyczną wymowę słów. Następnie możesz odwoływać się do tych list w wypowiedziach szkoleniowych.
Oczekiwane wypowiedzi często są zgodne z określonym wzorcem. Jednym z typowych wzorców jest to, że wypowiedzi różnią się tylko słowami lub frazami z listy. Przykłady tego wzorca mogą być następujące:
- "Mam pytanie o
product
"", gdzieproduct
jest lista możliwych produktów. - "Zrób to
object
color
", gdzieobject
jest listą kształtów geometrycznych icolor
jest listą kolorów.
Aby uzyskać listę obsługiwanych modeli bazowych i ustawień regionalnych do trenowania za pomocą tekstu strukturalnego, zobacz Obsługa języka. Musisz użyć najnowszego modelu podstawowego dla tych ustawień regionalnych. W przypadku ustawień regionalnych, które nie obsługują trenowania za pomocą tekstu ustrukturyzowanego, usługa podejmie wszelkie zdania szkoleniowe, które nie odwołują się do żadnych klas w ramach trenowania przy użyciu danych w postaci zwykłego tekstu.
Plik tekstowy ze strukturą powinien mieć rozszerzenie md. Maksymalny rozmiar pliku to 200 MB, a kodowanie tekstu musi być UTF-8 BOM. Składnia języka Markdown jest taka sama jak w przypadku modeli usługi Language Understanding, w szczególności jednostek listy i przykładowych wypowiedzi. Aby uzyskać więcej informacji na temat pełnej składni języka Markdown, zobacz Language Understanding Markdown.
Poniżej przedstawiono kluczowe szczegóły dotyczące obsługiwanego formatu języka Markdown:
Oto przykładowy plik tekstowy ze strukturą:
// This is a comment because it follows a double slash (`//`).
// Here are three separate lists of items that can be referenced in an example sentence. You can have up to 10 of these.
@ list food =
- pizza
- burger
- ice cream
- soda
@ list pet =
- cat
- dog
- fish
@ list sports =
- soccer
- tennis
- cricket
- basketball
- baseball
- football
// List of phonetic pronunciations
@ speech:phoneticlexicon
- cat/k ae t
- fish/f ih sh
// Here are two sections of training sentences.
#TrainingSentences_Section1
- you can include sentences without a class reference
- what {@pet} do you have
- I like eating {@food} and playing {@sports}
- my {@pet} likes {@food}
#TrainingSentences_Section2
- you can include more sentences without a class reference
- or more sentences that have a class reference like {@pet}
Dane wymowy na potrzeby trenowania
Wyspecjalizowane lub złożone słowa mogą mieć unikatową wymowę. Te słowa można rozpoznać, jeśli można je podzielić na mniejsze słowa, aby je wypowiedzieć. Na przykład, aby rozpoznać "Xbox", wymawiać go jako "X box". Takie podejście nie zwiększy ogólnej dokładności, ale może poprawić rozpoznawanie tych i innych słów kluczowych.
Aby poprawić rozpoznawanie, możesz podać niestandardowy plik wymowy. Nie używaj niestandardowych plików wymowy, aby zmienić wymowę typowych słów. Aby uzyskać listę języków obsługujących wymowę niestandardową, zobacz obsługa języków.
Uwaga
Możesz użyć pliku wymowy obok dowolnego innego zestawu danych treningowych z wyjątkiem danych trenowania tekstu ustrukturyzowanego. Aby używać danych wymowy ze strukturą tekstu, musi znajdować się w pliku tekstowym ze strukturą.
Forma mówiona to sekwencja fonetyczna wypisana. Może składać się z liter, wyrazów, sylab lub kombinacji wszystkich trzech. Ta tabela zawiera kilka przykładów:
Rozpoznany wyświetlony formularz | Formularz mówiony |
---|---|
3CPO | trzy c p o |
CNTK | c n t k |
IEEE | i triple e |
Wymowa jest udostępniana w jednym pliku tekstowym. Uwzględnij wypowiedzi mówione i niestandardową wymowę dla każdej z nich. Każdy wiersz w pliku powinien rozpoczynać się od rozpoznanego formularza, a następnie znaku tabulatora, a następnie sekwencji fonetycznej rozdzielanej spacją.
3CPO three c p o
CNTK c n t k
IEEE i triple e
Zapoznaj się z poniższą tabelą, aby upewnić się, że pliki zestawu danych wymowy są prawidłowe i poprawnie sformatowane.
Właściwości | Wartość |
---|---|
Kodowanie tekstu | UtF-8 BOM (ANSI jest również obsługiwany w języku angielskim) |
Liczba wymowy na wiersz | 1 |
Maksymalna wielkość pliku | 1 MB (1 KB dla warstwy Bezpłatna) |
Dane audio na potrzeby trenowania lub testowania
Dane audio są optymalne do testowania dokładności podstawowej mowy firmy Microsoft do modelu tekstowego lub modelu niestandardowego. Należy pamiętać, że dane audio są używane do sprawdzania dokładności mowy dotyczącej wydajności określonego modelu. Jeśli chcesz określić dokładność modelu, użyj transkrypcji z etykietą audio i człowieka.
Uwaga
Dane tylko audio do trenowania są dostępne w wersji zapoznawczej ustawień en-US
regionalnych. W przypadku innych ustawień regionalnych, aby trenować przy użyciu danych audio, należy również podać transkrypcje oznaczone przez człowieka.
Niestandardowe projekty mowy wymagają plików audio z następującymi właściwościami:
Ważne
Są to wymagania dotyczące trenowania i testowania tylko audio. Różnią się one od tych dla audio + human-labeled trenowanie i testowanie transkrypcji. Jeśli chcesz użyć uczenia i testowania transkrypcji audio i oznaczonej przez człowieka, zobacz tę sekcję.
Właściwości | Wartość |
---|---|
File format | RIFF (WAV) |
Częstotliwość próbkowania | 8000 Hz lub 16 000 Hz |
Kanały | 1 (mono) |
Maksymalna długość na dźwięk | Dwie godziny |
Format próbki | PCM, 16-bitowy |
Format archiwum | .zip |
Maksymalny rozmiar archiwum | 2 GB lub 10 000 plików |
Uwaga
Podczas przekazywania danych szkoleniowych i testowych rozmiar pliku .zip nie może przekroczyć 2 GB. Jeśli potrzebujesz więcej danych do trenowania, podziel je na kilka .zip plików i przekaż je oddzielnie. Później możesz trenować z wielu zestawów danych. Można jednak przetestować tylko jeden zestaw danych.
Użyj soX , aby zweryfikować właściwości dźwięku lub przekonwertować istniejący dźwięk na odpowiednie formaty. Oto kilka przykładowych poleceń SoX:
Działanie | Polecenie oprogramowania SoX |
---|---|
Sprawdzanie formatu pliku dźwiękowego. | sox --i <filename> |
Przekonwertuj plik dźwiękowy na pojedynczy kanał, 16 bitów, 16 kHz. | sox <input> -b 16 -e signed-integer -c 1 -r 16k -t wav <output>.wav |
Niestandardowe dane formatowania tekstu wyświetlanego na potrzeby trenowania
Dowiedz się więcej na temat przygotowywania danych formatowania tekstu wyświetlanego i wyświetlania formatowania tekstu za pomocą mowy na tekst.
Automatyczny format wyświetlania danych wyjściowych rozpoznawania mowy ma kluczowe znaczenie dla zadań podrzędnych, a jeden rozmiar nie pasuje do wszystkich. Dodanie niestandardowych reguł formatu wyświetlania umożliwia użytkownikom definiowanie własnych reguł formatowania leksykalnego do wyświetlania w celu poprawy jakości usługi rozpoznawania mowy na podstawie niestandardowej usługi rozpoznawania mowy platformy Microsoft Azure.
Umożliwia to pełne dostosowanie danych wyjściowych wyświetlania, takich jak dodawanie reguł ponownego zapisywania w celu zmiany liter i ponownego formatowania niektórych wyrazów, dodawanie wulgaryzmów i maskowanie z danych wyjściowych, definiowanie zaawansowanych reguł ITN dla niektórych wzorców, takich jak liczby, daty, adresy e-mail; lub zachować niektóre frazy i zachować je z dowolnych procesów wyświetlania.
Na przykład:
Formatowanie niestandardowe | Tekst wyświetlany |
---|---|
Brak | Mój numer finansowy od firmy contoso to 8BEV3 |
Wielkie litery "Contoso" (za pośrednictwem #rewrite reguły)Formatowanie numeru finansowego (za pomocą #itn reguły) |
Mój numer finansowy firmy Contoso to 8B-EV-3 |
Aby uzyskać listę obsługiwanych modeli bazowych i ustawień regionalnych do trenowania za pomocą tekstu strukturalnego, zobacz Obsługa języka. Plik Format wyświetlania powinien mieć rozszerzenie md. Maksymalny rozmiar pliku to 10 MB, a kodowanie tekstu musi mieć wartość UTF-8 BOM. Aby uzyskać więcej informacji na temat dostosowywania reguł formatu wyświetlania, zobacz Wyświetlanie reguł formatowania Najlepsze rozwiązanie.
Właściwości | opis | Limity |
---|---|---|
#ITN | Lista reguł normalizacji invert-text do definiowania określonych wzorców wyświetlania, takich jak liczby, adresy i daty. | Maksymalnie 200 wierszy |
#rewrite | Lista par ponownego zapisywania w celu zastąpienia niektórych wyrazów z powodów, takich jak zamiana liter i korekta pisowni. | Maksymalnie 1000 wierszy |
#profanity | Lista niechcianych słów, które będą maskowane w postaci ****** danych wyjściowych wyświetlania i maskowania, oprócz wbudowanych list wulgaryzmów firmy Microsoft. |
Maksymalnie 1000 wierszy |
#test | Lista przypadków testów jednostkowych w celu sprawdzenia, czy reguły wyświetlania działają zgodnie z oczekiwaniami, w tym dane wejściowe w formacie leksykalnym i oczekiwane dane wyjściowe formatu wyświetlania. | Maksymalny rozmiar pliku wynoszący 10 MB |
Oto przykładowy plik formatu wyświetlania:
// this is a comment line
// each section must start with a '#' character
#itn
// list of ITN pattern rules, one rule for each line
\d-\d-\d
\d-\l-\l-\d
#rewrite
// list of rewrite rules, each rule has two phrases, separated by a tab character
old phrase new phrase
# profanity
// list of profanity phrases to be tagged/removed/masked, one line one phrase
fakeprofanity
#test
// list of test cases, each test case has two sentences, input lexical and expected display output
// the two sentences are separated by a tab character
// the expected sentence is the display output of DPP+CDPP models
Mask the fakeprofanity word Mask the ************* word