Lector de secuencias LM de BrainScript
Nota: Si es un recién llegado, considere la posibilidad de usar CNTK Lector de formato de texto. En el futuro LMSequenceReader quedará en desuso y finalmente no se admitirá.
LMSequenceReader es un lector que lee la cadena de texto. Se suele usar para las tareas de modelado de lenguaje. Un ejemplo de su configuración es el siguiente:
reader = [
readerType = "LMSequenceReader"
randomize = false
nbruttineachrecurrentiter = 10
unk = "<unk>"
wordclass = "$DataDir$\wordclass.txt"
file = "$DataDir$\penntreebank.train.txt"
labelIn = [
labelDim = 10000
beginSequence = "</s>"
endSequence = "</s>"
]
]
LmSequenceReader tiene los parámetros siguientes:
randomize
: esNone
oAuto
. Esto especifica el modo de si se realiza la selección aleatoria de oraciones de todo el corpus.nbruttsineachrecurrentiter
: especifica el límite del número de oraciones en un minibatch. El lector organiza oraciones de entrada de la misma longitud, hasta el límite especificado, en cada minibatch. En el caso de las redes recurrentes, el instructor restablece las actividades ocultas de la capa solo al principio de las oraciones. Las actividades de capas ocultas se transfieren al siguiente minibatch si no se alcanza un final de oración. El uso de varias oraciones en un minibatch puede acelerar los procesos de entrenamiento.unk
: especifica el símbolo para representar símbolos de entrada no vistos. Normalmente, este símbolo es "". Las palabras no vistos se asignarán al símbolo.wordclass
: especifica la información de clase de palabra. Se usa para el modelado de lenguaje basado en clases. A continuación se muestra un ejemplo de la información de clase. La primera columna es el índice de palabras. La segunda columna es el número de repeticiones, la tercera columna es la palabra y la última columna es el identificador de clase de la palabra.0 42068 </s> 0
1 50770 the 0
2 45020 <unk> 0
3 32481 N 0
4 24400 of 0
5 23638 to 0
6 21196 a 0
7 18000 in 1
8 17474 and 1
file
: el archivo contiene cadenas de texto. A continuación se muestra un ejemplo: En este ejemplo también puede observar un sub bloques denominadolabelIn
.Pierre N años se unirá a la junta como director ningunoxecutive nov. N mr. es presidente de n.v. el grupo de publicación holandés.
labelIn
: la sección de la etiqueta de entrada. Contiene las siguientes configuraciones.beginSequence
: el símbolo inicial de la oraciónendSequence
: el símbolo final de la oraciónlabelDim
: la dimensión de las etiquetas. Esto suele significar el tamaño del vocabulario.