rxFeaturize: transformação de dados para fontes de dados RevoScaleR
Transforma dados de um conjunto de dados de entrada em um conjunto de dados de saída.
Uso
rxFeaturize(data, outData = NULL, overwrite = FALSE, dataThreads = NULL,
randomSeed = NULL, maxSlots = 5000, mlTransforms = NULL,
mlTransformVars = NULL, rowSelection = NULL, transforms = NULL,
transformObjects = NULL, transformFunc = NULL, transformVars = NULL,
transformPackages = NULL, transformEnvir = NULL,
blocksPerRead = rxGetOption("blocksPerRead"),
reportProgress = rxGetOption("reportProgress"), verbose = 1,
computeContext = rxGetOption("computeContext"), ...)
Argumentos
data
Um objeto de fonte de dados RevoScaleR, um estrutura de dados ou o caminho para um arquivo .xdf
.
outData
O nome do arquivo de saída ou xdf ou um RxDataSource
com funcionalidades de gravação em que os dados transformados serão armazenados. Se for definido como NULL
, um dataframe será retornado. O valor padrão é NULL
.
overwrite
Se for definido como TRUE
, um outData
existente será substituído. Se for definido como FALSE
, um outData
existente não será substituído. O valor padrão é /codeFALSE.
dataThreads
Um inteiro que especifica o grau desejado de paralelismo no pipeline de dados. Se for definido como NULL
, o número de threads usados será determinado internamente. O valor padrão é NULL
.
randomSeed
Especifica a semente aleatória. O valor padrão é NULL
.
maxSlots
O número máximo de slots a serem retornados para colunas de valor de vetor (<=0 para retornar todos).
mlTransforms
Especifica uma lista de transformações do MicrosoftML a serem executadas nos dados antes do treinamento ou NULL
para que nenhuma transformação seja executada. Confira featurizeText, categorical e categoricalHash, para ver as transformações com suporte. Essas transformações são executadas após as transformações R especificadas. O valor padrão é NULL
.
mlTransformVars
Especifica um vetor de caracteres de nomes de variáveis a serem usados em mlTransforms
ou NULL
quando não é usado nenhum nome. O valor padrão é NULL
.
rowSelection
Especifica as linhas (observações) do conjunto de dados que devem ser usadas pelo modelo com o nome de uma variável lógica do conjunto de dados (entre aspas) ou com uma expressão lógica usando variáveis no conjunto de dados. Por exemplo, rowSelection = "old"
usará apenas observações nas quais o valor da variável old
seja TRUE
.
rowSelection = (age > 20) & (age < 65) & (log(income) > 10)
apenas usa observações nas quais o valor da variável age
está entre 20 e 65 e o valor de log
da variável income
é maior que 10. A seleção de linha é executada após o processamento de todas as transformações de dados (confira os argumentos transforms
ou transformFunc
). Assim como acontece com todas as expressões, é possível definir rowSelection
fora da chamada de função usando a função de expressão.
transforms
Uma expressão do formato list(name = expression, ``...)
que representa a primeira rodada de transformações de variável. Assim como acontece com todas as expressões, é possível definir transforms
(ou rowSelection
) fora da chamada de função usando a função de expressão. O valor padrão é NULL
.
transformObjects
Uma lista nomeada que contém objetos que podem ser referenciados por transforms
, transformsFunc
e rowSelection
. O valor padrão é NULL
.
transformFunc
A função de transformação de variável. Confira rxTransform para obter detalhes. O valor padrão é NULL
.
transformVars
Um vetor de caracteres de variáveis do conjunto de dados de entrada necessário para a função de transformação. Confira rxTransform para obter detalhes. O valor padrão é NULL
.
transformPackages
Um vetor de caracteres que especifica pacotes R adicionais (fora aqueles especificados em rxGetOption("transformPackages")
) a serem disponibilizados e pré-carregados para uso em funções de transformação de variável. Por exemplo, os definidos explicitamente nas funções RevoScaleR por meio dos respectivos argumentos transforms
e transformFunc
ou os definidos implicitamente por meio dos respectivos argumentos formula
ou rowSelection
. O argumento transformPackages
também pode ser NULL
, indicando que nenhum pacote fora de rxGetOption("transformPackages")
é pré-carregado. O valor padrão é NULL
.
transformEnvir
Um ambiente definido pelo usuário para funcionar como um pai de todos os ambientes desenvolvidos internamente e usados para transformação de dados de variável. Se transformEnvir = NULL
, um novo ambiente de “hash” com pai baseenv()
é usado, em vez do valor padrão que é NULL
.
blocksPerRead
Especifica o número de blocos a serem lidos em cada parte dos dados lidos da fonte de dados.
reportProgress
Um valor inteiro que especifica o nível de relatório sobre o progresso do processamento de linha:
-
0
: não é relatado nenhum progresso. -
1
: o número de linhas processadas é impresso e atualizado. -
2
: as linhas processadas e os tempos são relatados. -
3
: as linhas processadas e todos os tempos são relatados.
O valor padrão é1
.
verbose
Um valor inteiro que especifica a quantidade de saída desejada. Se definido como 0
, não será impressa nenhuma saída detalhada durante os cálculos. Valores inteiros de 1
a 4
fornecem quantidades crescentes de informações. O valor padrão é 1
.
computeContext
Define o contexto no qual as computações são executadas, especificado com um RxComputeContext válido. No momento, há suporte para os contextos de computação local e RxInSqlServer.
...
Argumentos adicionais a serem passados diretamente para o Microsoft Compute Engine.
Valor
Uma estrutura de dados ou um objeto RxDataSource que representa os dados de saída criados.
Autor(es)
Microsoft Corporation Microsoft Technical Support
Confira também
rxDataStep, rxImport, rxTransform.
Exemplos
# rxFeaturize basically allows you to access data from the MicrosoftML transforms
# In this example we'll look at getting the output of the categorical transform
# Create the data
categoricalData <- data.frame(
placesVisited = c(
"London",
"Brunei",
"London",
"Paris",
"Seria"
),
stringsAsFactors = FALSE
)
# Invoke the categorical transform
categorized <- rxFeaturize(
data = categoricalData,
mlTransforms = list(categorical(vars = c(xDataCat = "placesVisited")))
)
# Now let's look at the data
categorized