BrainScript LM-sekvensläsare
Obs! Om du är nybörjare bör du överväga att använda CNTK textformatläsare. I framtiden kommer LMSequenceReader att bli inaktuell och så småningom inte stödjas.
LMSequenceReader är en läsare som läser textsträngen. Det används oftast för språkmodelleringsuppgifter. Ett exempel på dess konfiguration är följande
reader = [
readerType = "LMSequenceReader"
randomize = false
nbruttineachrecurrentiter = 10
unk = "<unk>"
wordclass = "$DataDir$\wordclass.txt"
file = "$DataDir$\penntreebank.train.txt"
labelIn = [
labelDim = 10000
beginSequence = "</s>"
endSequence = "</s>"
]
]
LMSequenceReader har följande parametrar:
randomize
: det är antingenNone
ellerAuto
. Detta anger läget för om menings randomisering av hela korpusen ska utföras.nbruttsineachrecurrentiter
: detta anger gränsen för antalet meningar i en minibatch. Läsaren ordnar indatameningar med samma längd, upp till den angivna gränsen, i varje minibatch. För återkommande nätverk återställer tränaren dolda lageraktiviteter endast i början av meningar. Aktiviteter i dolda lager överförs till nästa minibatch om en menings slut inte nås. Att använda flera meningar i en minibatch kan påskynda träningsprocesserna.unk
: Detta anger den symbol som ska representera osynliga indatasymboler. Den här symbolen är vanligtvis "". Ord som inte visas mappas till symbolen.wordclass
: detta anger ordet klassinformation. Detta används för klassbaserad språkmodellering. Ett exempel på klassinformationen finns nedan. Den första kolumnen är ordet index. Den andra kolumnen är antalet förekomster, den tredje kolumnen är ordet och den sista kolumnen är klass-ID:t för ordet.0 42068 </s> 0
1 50770 the 0
2 45020 <unk> 0
3 32481 N 0
4 24400 of 0
5 23638 to 0
6 21196 a 0
7 18000 in 1
8 17474 and 1
file
: filen innehåller textsträngar. Ett exempel finns nedan. I det här exemplet kan du också se ett underblock med namnetlabelIn
.pierre N år gammal kommer att gå med i styrelsen som en nonexecutive direktör nov. N mr. är ordförande för n.v. den nederländska förlagsgruppen
labelIn
: avsnittet för indataetikett. Den innehåller följande konfigurationerbeginSequence
– meningsstartsymbolenendSequence
– slutsymbolen för meningenlabelDim
– etiketternas dimension. Detta innebär vanligtvis vokabulärstorleken.