OutputTabularDatasetConfig Classe
Representa como copiar a saída de uma execução e promovê-la como um TabularDataset.
Inicialize um OutputTabularDatasetConfig.
- Herança
-
OutputTabularDatasetConfig
Construtor
OutputTabularDatasetConfig(**kwargs)
Comentários
Você não deve chamar esse construtor diretamente, mas, em vez disso, deve criar um OutputFileDatasetConfig e, em seguida, chamar os métodos read_* correspondentes para convertê-lo em um OutputTabularDatasetConfig.
A maneira como a saída será copiada para o destino com um OutputTabularDatasetConfig é a mesma que com um OutputFileDatasetConfig. A diferença entre eles é que o conjunto de dados criado será um TabularDataset que contém todas as transformações especificadas.
Métodos
as_input |
Especifica como consumir a saída como uma entrada nas etapas de pipeline subsequentes. |
as_mount |
Defina o modo da saída como montagem. No modo de montagem, o diretório de saída será um diretório FUSE montado. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado. |
as_upload |
Defina o modo da saída como upload. No modo de upload, os arquivos gravados no diretório de saída serão carregados ao término do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado. |
drop_columns |
Remove as colunas especificadas do conjunto de dados. |
keep_columns |
Mantém as colunas especificadas e remove todas as outras do conjunto de dados. |
random_split |
Divide os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pelo percentual especificado. As configurações de saída resultantes terão seus nomes alterados, o primeiro terá _1 anexado ao nome e o segundo terá o _2 acrescentado ao nome. Se isso causar uma colisão de nome ou você desejar especificar um nome personalizado, defina manualmente seus nomes. |
as_input
Especifica como consumir a saída como uma entrada nas etapas de pipeline subsequentes.
as_input(name=None)
Parâmetros
Nome | Description |
---|---|
name
Obrigatório
|
O nome da entrada específica para a ser executada. |
Retornos
Tipo | Description |
---|---|
Uma instância DatasetConsumptionConfig que descreve como entregar os dados de entrada. |
as_mount
Defina o modo da saída como montagem.
No modo de montagem, o diretório de saída será um diretório FUSE montado. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.
as_mount()
Retornos
Tipo | Description |
---|---|
Uma instância de OutputTabularDatasetConfig com o modo definido como montagem. |
as_upload
Defina o modo da saída como upload.
No modo de upload, os arquivos gravados no diretório de saída serão carregados ao término do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.
as_upload(overwrite=False, source_globs=None)
Parâmetros
Nome | Description |
---|---|
overwrite
Obrigatório
|
Se os arquivos que já existem no destino devem ou não ser substituídos. |
source_globs
Obrigatório
|
Padrões glob usados para filtrar arquivos que serão carregados. |
Retornos
Tipo | Description |
---|---|
Uma instância de OutputTabularDatasetConfig com o modo definido como upload. |
drop_columns
Remove as colunas especificadas do conjunto de dados.
drop_columns(columns)
Parâmetros
Nome | Description |
---|---|
columns
Obrigatório
|
O nome ou uma lista de nomes para as colunas a serem removidas. |
Retornos
Tipo | Description |
---|---|
Uma instância OutputTabularDatasetConfig com as colunas a serem descartadas. |
keep_columns
Mantém as colunas especificadas e remove todas as outras do conjunto de dados.
keep_columns(columns)
Parâmetros
Nome | Description |
---|---|
columns
Obrigatório
|
O nome ou uma lista de nomes para as colunas a serem mantidas. |
Retornos
Tipo | Description |
---|---|
Uma instância OutputTabularDatasetConfig com as colunas a serem mantidas. |
random_split
Divide os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pelo percentual especificado.
As configurações de saída resultantes terão seus nomes alterados, o primeiro terá _1 anexado ao nome e o segundo terá o _2 acrescentado ao nome. Se isso causar uma colisão de nome ou você desejar especificar um nome personalizado, defina manualmente seus nomes.
random_split(percentage, seed=None)
Parâmetros
Nome | Description |
---|---|
percentage
Obrigatório
|
A porcentagem aproximada para dividir o conjunto de dados. Precisa ser um número entre 0.0 e 1.0. |
seed
Obrigatório
|
Semente opcional a ser usada para o gerador aleatório. |
Retornos
Tipo | Description |
---|---|
Retorna uma tupla de dois objetos OutputTabularDatasetConfig que representam os dois conjuntos de dados após a divisão. |