OutputTabularDatasetConfig Classe

Referência

Representa como copiar a saída de uma execução e promovê-la como um TabularDataset.

Inicialize um OutputTabularDatasetConfig.

Herança: OutputDatasetConfig

OutputTabularDatasetConfig

Construtor

OutputTabularDatasetConfig(**kwargs)

Comentários

Você não deve chamar esse construtor diretamente, mas, em vez disso, deve criar um OutputFileDatasetConfig e, em seguida, chamar os métodos read_* correspondentes para convertê-lo em um OutputTabularDatasetConfig.

A maneira como a saída será copiada para o destino com um OutputTabularDatasetConfig é a mesma que com um OutputFileDatasetConfig. A diferença entre eles é que o conjunto de dados criado será um TabularDataset que contém todas as transformações especificadas.

Métodos

as_input	Especifica como consumir a saída como uma entrada nas etapas de pipeline subsequentes.
as_mount	Defina o modo da saída como montagem. No modo de montagem, o diretório de saída será um diretório FUSE montado. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.
as_upload	Defina o modo da saída como upload. No modo de upload, os arquivos gravados no diretório de saída serão carregados ao término do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.
drop_columns	Remove as colunas especificadas do conjunto de dados.
keep_columns	Mantém as colunas especificadas e remove todas as outras do conjunto de dados.
random_split	Divide os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pelo percentual especificado. As configurações de saída resultantes terão seus nomes alterados, o primeiro terá _1 anexado ao nome e o segundo terá o _2 acrescentado ao nome. Se isso causar uma colisão de nome ou você desejar especificar um nome personalizado, defina manualmente seus nomes.

as_input

Especifica como consumir a saída como uma entrada nas etapas de pipeline subsequentes.

as_input(name=None)

Parâmetros

Nome	Description
name Obrigatório	str O nome da entrada específica para a ser executada.

Retornos

Tipo	Description
DatasetConsumptionConfig	Uma instância DatasetConsumptionConfig que descreve como entregar os dados de entrada.

as_mount

Defina o modo da saída como montagem.

No modo de montagem, o diretório de saída será um diretório FUSE montado. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.

as_mount()

Retornos

Tipo	Description
OutputTabularDatasetConfig	Uma instância de OutputTabularDatasetConfig com o modo definido como montagem.

as_upload

Defina o modo da saída como upload.

No modo de upload, os arquivos gravados no diretório de saída serão carregados ao término do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.

as_upload(overwrite=False, source_globs=None)

Parâmetros

Nome	Description
overwrite Obrigatório	bool Se os arquivos que já existem no destino devem ou não ser substituídos.
source_globs Obrigatório	list[str] Padrões glob usados para filtrar arquivos que serão carregados.

Retornos

Tipo	Description
OutputTabularDatasetConfig	Uma instância de OutputTabularDatasetConfig com o modo definido como upload.

drop_columns

Remove as colunas especificadas do conjunto de dados.

drop_columns(columns)

Parâmetros

Nome	Description
columns Obrigatório	Union[str, list[str]] O nome ou uma lista de nomes para as colunas a serem removidas.

Retornos

Tipo	Description
PipelineOutputTabularDataset	Uma instância OutputTabularDatasetConfig com as colunas a serem descartadas.

keep_columns

Mantém as colunas especificadas e remove todas as outras do conjunto de dados.

keep_columns(columns)

Parâmetros

Nome	Description
columns Obrigatório	Union[str, list[str]] O nome ou uma lista de nomes para as colunas a serem mantidas.

Retornos

Tipo	Description
PipelineOutputTabularDataset	Uma instância OutputTabularDatasetConfig com as colunas a serem mantidas.

random_split

Divide os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pelo percentual especificado.

As configurações de saída resultantes terão seus nomes alterados, o primeiro terá _1 anexado ao nome e o segundo terá o _2 acrescentado ao nome. Se isso causar uma colisão de nome ou você desejar especificar um nome personalizado, defina manualmente seus nomes.

random_split(percentage, seed=None)

Parâmetros

Nome	Description
percentage Obrigatório	float A porcentagem aproximada para dividir o conjunto de dados. Precisa ser um número entre 0.0 e 1.0.
seed Obrigatório	int Semente opcional a ser usada para o gerador aleatório.

Retornos

Tipo	Description
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	Retorna uma tupla de dois objetos OutputTabularDatasetConfig que representam os dois conjuntos de dados após a divisão.

Compartilhar via

OutputTabularDatasetConfig Classe

Construtor

Comentários

Métodos

as_input

Parâmetros

Retornos

as_mount

Retornos

as_upload

Parâmetros

Retornos

drop_columns

Parâmetros

Retornos

keep_columns

Parâmetros

Retornos

random_split

Parâmetros

Retornos

Comentários

Recursos adicionais