BrainScript LM Sequence Reader
Opmerking: als u nieuwkomer bent, kunt u overwegen om CNTK Tekstindelingslezer te gebruiken. In de toekomst wordt LMSequenceReader afgeschaft en uiteindelijk niet ondersteund.
LMSequenceReader is een lezer die teksttekenreeks leest. Het wordt meestal gebruikt voor taalmodelleringstaken. Een voorbeeld van de installatie is als volgt
reader = [
readerType = "LMSequenceReader"
randomize = false
nbruttineachrecurrentiter = 10
unk = "<unk>"
wordclass = "$DataDir$\wordclass.txt"
file = "$DataDir$\penntreebank.train.txt"
labelIn = [
labelDim = 10000
beginSequence = "</s>"
endSequence = "</s>"
]
]
LmSequenceReader heeft de volgende parameters:
randomize
: het isNone
ofwel ofAuto
. Hiermee geeft u de modus aan van het uitvoeren van zinsrandomisatie van het hele corpus.nbruttsineachrecurrentiter
: hiermee wordt de limiet aangegeven van het aantal zinnen in een minibatch. De lezer rangschikt invoerzinnen met dezelfde lengte, tot de opgegeven limiet, in elke minibatch. Voor terugkerende netwerken herstelt trainer verborgen laagactiviteiten alleen aan het begin van zinnen. Activiteiten van verborgen lagen worden overgedragen naar de volgende minibatch als een einde van de zin niet wordt bereikt. Het gebruik van meerdere zinnen in een minibatch kan trainingsprocessen versnellen.unk
: hiermee geeft u het symbool aan dat ongeziene invoersymbolen vertegenwoordigt. Meestal is dit symbool ''. Ongelezen woorden worden toegewezen aan het symbool.wordclass
: hiermee wordt de informatie over de woordklasse opgegeven. Dit wordt gebruikt voor taalmodellering op basis van klassen. Hieronder ziet u een voorbeeld van de klassegegevens. De eerste kolom is de woordindex. De tweede kolom is het aantal exemplaren, de derde kolom is het woord en de laatste kolom is de klasse-id van het woord.0 42068 </s> 0
1 50770 the 0
2 45020 <unk> 0
3 32481 N 0
4 24400 of 0
5 23638 to 0
6 21196 a 0
7 18000 in 1
8 17474 and 1
file
: het bestand bevat tekenreeksen. Hieronder ziet u een voorbeeld. In dit voorbeeld kunt u ook één subblok met de naamlabelIn
zien.pierre N jaar oud neemt deel aan het bestuur als niet-bestaande directeur nov. N mr. is voorzitter van n.v. de nederlandse publicatiegroep
labelIn
: de sectie voor invoerlabel. Het bevat de volgende instellingenbeginSequence
– het symbool voor het begin van de zinendSequence
– het eindsymbool voor de zinlabelDim
– de dimensie van labels. Dit betekent meestal de vocabulaire grootte.