ngram: Machine Learning-Featureextraktoren
Featureextraktoren, die mit mtText verwendet werden können.
Verwendung
ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
weighting = "tf")
ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
seed = 314489979, ordered = TRUE, invertHash = 0)
Argumente
ngramLength
Eine ganze Zahl, die die maximale Anzahl von Token angibt, die beim Erstellen eines N-Gramms verwendet werden. Der Standardwert ist 1.
skipLength
Eine ganze Zahl, die die maximale Anzahl von Token angibt, die beim Erstellen eines N-Gramms übersprungen werden. Wenn der als Sprunglänge angegebene Wert k
ist, können N-Gramme bis zu k (nicht unbedingt aufeinander folgende) Sprünge enthalten. Beispiel: Wenn k=2
, dann sind die 3-Gramme, die aus dem Text „The sky is blue today“ extrahiert werden: „the sky is“, „the sky blue“, „the sky today“, „the is blue“, „the is today“ und „the blue today“. Der Standardwert ist 0.
maxNumTerms
Eine ganze Zahl, die die maximale Anzahl von Kategorien angibt, die in das Wörterbuch aufgenommen werden sollen. Der Standardwert ist 10000000.
weighting
Eine Zeichenfolge, die die Gewichtungskriterien angibt:
"tf"
: zur Verwendung der Begriffshäufigkeit."idf"
: zur Verwendung der umgekehrten Dokumenthäufigkeit."tfidf"
: zur Verwendung sowohl von Begriffshäufigkeit als auch umgekehrter Dokumenthäufigkeit.
hashBits
Ganzzahliger Wert. Anzahl der Bits, in die einen Hashwert aufgenommen werden soll. Muss im Bereich 1 bis 30 liegen.
seed
Ganzzahliger Wert. Ausgangswert für Hashing.
ordered
TRUE
, um die Position jedes Terms im Hash anzugeben. Andernfalls FALSE
. Der Standardwert ist TRUE
.
invertHash
Eine ganze Zahl, die die maximale Anzahl von Schlüsseln angibt, die zum Generieren des Slotnamens verwendet werden können. 0
bedeutet kein Invertieren des Hashings, -1
bedeutet ohne Limit. Wenngleich ein Nullwert zu einer besseren Leistung führt, ist ein Wert ungleich Null erforderlich, um aussagekräftige Koeffizientennamen zu erhalten.
Details
ngramCount
ermöglicht das Definieren von Argumenten für die anzahlbasierte Featureextraktion. Die folgenden Optionen werden akzeptiert: ngramLength
, skipLength
, maxNumTerms
und weighting
.
ngramHash
ermöglicht das Definieren von Argumenten für die hashbasierte Featureextraktion. Die folgenden Optionen werden akzeptiert: ngramLength
, skipLength
, hashBits
, seed
, ordered
und invertHash
.
Wert
Eine Zeichenfolge, die die Transformation definiert.
Autor(en)
Microsoft Corporation Microsoft Technical Support
Weitere Informationen
Beispiele
myData <- data.frame(opinion = c(
"I love it!",
"I love it!",
"Love it!",
"I love it a lot!",
"Really love it!",
"I hate it",
"I hate it",
"I hate it.",
"Hate it",
"Hate"),
like = rep(c(TRUE, FALSE), each = 5),
stringsAsFactors = FALSE)
outModel1 <- rxLogisticRegression(like~opinionCount, data = myData,
mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"),
wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3))))
summary(outModel1)
outModel2 <- rxLogisticRegression(like~opinionCount, data = myData,
mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"),
wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))
summary(outModel2)