ngram: extractores de características de Machine Learning
Extractores de características que se pueden usar con mtText.
Uso
ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
weighting = "tf")
ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
seed = 314489979, ordered = TRUE, invertHash = 0)
Argumentos
ngramLength
Entero que especifica el número máximo de tokens que se tomarán al construir un n-grama. El valor predeterminado es 1.
skipLength
Entero que especifica el número máximo de tokens que se omitirán al construir un n-grama. Si el valor especificado como tamaño de omisión es k
, los n-gramas pueden contener hasta k omisiones (no necesariamente consecutivas). Por ejemplo, si el valor es k=2
, los 3 gramas que se extraen del texto "the sky is blue today" son: "the sky is", "the sky blue", "the sky today", "the is blue", "the is today" y "the blue today". El valor predeterminado es 0.
maxNumTerms
Entero que especifica el número máximo de categorías que se van a incluir en el diccionario. El valor predeterminado es 10000000.
weighting
Cadena de caracteres que especifica los criterios de ponderación:
-
"tf"
: para usar la frecuencia de términos. -
"idf"
: para usar la frecuencia inversa de documento. -
"tfidf"
: para usar tanto la frecuencia de términos como la frecuencia inversa de documento.
hashBits
valor entero. Número de bits en los que se aplica el código hash. Debe estar entre 1 y 30, ambos inclusive.
seed
valor entero. Inicialización de hash.
ordered
TRUE
para incluir la posición de cada término en el hash. En caso contrario, es FALSE
. El valor predeterminado es TRUE
.
invertHash
Entero que especifica el límite en el número de claves que se pueden usar para generar el nombre de la ranura.
0
significa que no se invierte el hash, -1
que no hay límite. Aunque un valor cero proporciona un mejor rendimiento, se necesita un valor distinto de cero para obtener nombres de coeficiente significativos.
Detalles
ngramCount
permite definir argumentos para la extracción de características basada en recuentos. Acepta estas opciones: ngramLength
, skipLength
, maxNumTerms
y weighting
.
ngramHash
permite definir argumentos para la extracción de características basada en hash. Acepta estas opciones: ngramLength
, skipLength
, hashBits
, seed
, ordered
y invertHash
.
Value
Cadena de caracteres que define la transformación.
Autores
Microsoft Corporation Microsoft Technical Support
Consulte también
Ejemplos
myData <- data.frame(opinion = c(
"I love it!",
"I love it!",
"Love it!",
"I love it a lot!",
"Really love it!",
"I hate it",
"I hate it",
"I hate it.",
"Hate it",
"Hate"),
like = rep(c(TRUE, FALSE), each = 5),
stringsAsFactors = FALSE)
outModel1 <- rxLogisticRegression(like~opinionCount, data = myData,
mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"),
wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3))))
summary(outModel1)
outModel2 <- rxLogisticRegression(like~opinionCount, data = myData,
mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"),
wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))
summary(outModel2)