Freigeben über


BrainScript LM Sequence Reader

Hinweis: Wenn Sie ein Neuankömmling sind, sollten Sie CNTK Textformatleser verwenden. In Zukunft wird LMSequenceReader veraltet und schließlich nicht unterstützt.

LMSequenceReader ist ein Reader, der Textzeichenfolge liest. Es wird meist für Sprachmodellierungsaufgaben verwendet. Ein Beispiel für seine Einrichtung ist wie folgt:

reader = [
    readerType = "LMSequenceReader"
    randomize = false
    nbruttineachrecurrentiter = 10
    unk = "<unk>"
    wordclass = "$DataDir$\wordclass.txt"
    file = "$DataDir$\penntreebank.train.txt"
    labelIn = [
        labelDim = 10000
        beginSequence = "</s>"
        endSequence = "</s>"
    ]
]

Der LMSequenceReader hat folgende Parameter:

  • randomize: es ist entweder None oder Auto. Dies gibt den Modus an, ob die Satz-Randomisierung des gesamten Korpus ausgeführt wird.

  • nbruttsineachrecurrentiter: Dies gibt den Grenzwert der Anzahl der Sätze in einem Minibatch an. Der Leser sortiert eingabesätze mit derselben Länge bis zum angegebenen Grenzwert in jeden Minibatch. Bei wiederkehrenden Netzwerken setzt Trainer ausgeblendete Layeraktivitäten nur am Anfang der Sätze zurück. Aktivitäten ausgeblendeter Ebenen werden an den nächsten Minibatch übertragen, wenn ein Ende des Satzes nicht erreicht ist. Die Verwendung mehrerer Sätze in einem Minibatch kann Schulungsprozesse beschleunigen.

  • unk: Dies gibt das Symbol an, das nicht angezeigte Eingabesymbole darstellt. In der Regel ist dieses Symbol "". Nicht angezeigte Wörter werden dem Symbol zugeordnet.

  • wordclass: Dies gibt die Wortklasseninformationen an. Dies wird für die klassenbasierte Sprachmodellierung verwendet. Ein Beispiel für die Klasseninformationen ist unten. Die erste Spalte ist der Wortindex. Die zweite Spalte ist die Anzahl der Vorkommen, die dritte Spalte ist das Wort, und die letzte Spalte ist die Klassen-ID des Worts.

    0 42068 </s> 0

    1 50770 the 0

    2 45020 <unk> 0

    3 32481 N 0

    4 24400 of 0

    5 23638 to 0

    6 21196 a 0

    7 18000 in 1

    8 17474 and 1

  • file: Die Datei enthält Textzeichenfolgen. Ein Beispiel finden Sie hier: In diesem Beispiel können Sie auch eine Unterblöcke mit dem Namen " labelIn.

    Pierre N Jahre alt wird als nicht ausführender Direktor nov. N Mr. ist Vorsitzender der niederländischen Veröffentlichungsgruppe n.v.

  • labelIn: der Abschnitt für eingabebezeichnung. Es enthält die folgenden Setups

    • beginSequence – Das Satzanfangssymbol
    • endSequence – Das Endsymbol für den Satz
    • labelDim – die Dimension der Etiketten. Dies bedeutet in der Regel die Vokabulargröße.