Partager via


Lecteur de séquences LM BrainScript

Remarque : si vous êtes nouveau, envisagez d’utiliser CNTK lecteur de format texte. À l’avenir, LMSequenceReader sera déconseillé et ne sera finalement pas pris en charge.

LMSequenceReader est un lecteur qui lit la chaîne de texte. Il est principalement utilisé pour les tâches de modélisation de langage. Un exemple de sa configuration est le suivant :

reader = [
    readerType = "LMSequenceReader"
    randomize = false
    nbruttineachrecurrentiter = 10
    unk = "<unk>"
    wordclass = "$DataDir$\wordclass.txt"
    file = "$DataDir$\penntreebank.train.txt"
    labelIn = [
        labelDim = 10000
        beginSequence = "</s>"
        endSequence = "</s>"
    ]
]

Le LMSequenceReader a les paramètres suivants :

  • randomize: c’est soit None ou Auto. Cela spécifie le mode d’exécution de la aléatoire des phrases de l’ensemble du corpus.

  • nbruttsineachrecurrentiter: cela spécifie la limite du nombre de phrases dans un minibatch. Le lecteur organise les phrases d’entrée de même longueur, jusqu’à la limite spécifiée, dans chaque minibatch. Pour les réseaux récurrents, le formateur réinitialise les activités de couche masquées uniquement au début des phrases. Les activités des couches masquées sont transmises au minibatch suivant si une fin de phrase n’est pas atteinte. L’utilisation de plusieurs phrases dans un minibatch peut accélérer les processus d’entraînement.

  • unk: cela spécifie le symbole pour représenter les symboles d’entrée invisibles. Généralement, ce symbole est « ». Les mots invisibles seront mappés au symbole.

  • wordclass: cela spécifie les informations de classe word. Ceci est utilisé pour la modélisation du langage basé sur la classe. Voici un exemple d’informations sur la classe. La première colonne est l’index de mot. La deuxième colonne est le nombre d’occurrences, la troisième colonne est le mot et la dernière colonne est l’ID de classe du mot.

    0 42068 </s> 0

    1 50770 the 0

    2 45020 <unk> 0

    3 32481 N 0

    4 24400 of 0

    5 23638 to 0

    6 21196 a 0

    7 18000 in 1

    8 17474 and 1

  • file: le fichier contient des chaînes de texte. En voici un exemple. Dans cet exemple, vous pouvez également remarquer qu’un sous-bloc nommé labelIn.

    pierre N years old rejoint le conseil en tant que directeur nonexecutive nov. N mr. est président de n.v. le groupe de publication néerlandais

  • labelIn: section pour l’étiquette d’entrée. Il contient les configurations suivantes

    • beginSequence – symbole de début de phrase
    • endSequence – symbole de fin de phrase
    • labelDim – dimension des étiquettes. Cela signifie généralement la taille du vocabulaire.