Dataset Classe

Referência

Representa um recurso para explorar, transformar e gerir dados no Azure Machine Learning.

Um Conjunto de Dados é uma referência a dados num Datastore ou atrás de URLs web públicos.

Para os métodos preteridos nesta classe, verifique AbstractDataset a classe para obter as APIs melhoradas.

São suportados os seguintes tipos de Conjuntos de Dados:

TabularDataset representa dados em formato tabular que são criados ao analisar o ficheiro ou a lista de ficheiros fornecidos.
FileDataset referencia ficheiros individuais ou múltiplos em arquivos de dados ou a partir de URLs públicos.

Para começar a utilizar conjuntos de dados, consulte o artigo Adicionar & registar conjuntos de dados ou ver os blocos de notas https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook.

Inicialize o objeto Conjunto de Dados.

Para obter um Conjunto de Dados que já tenha sido registado na área de trabalho, utilize o método get.

Herança: builtins.object

Dataset

Construtor

Dataset(definition, workspace=None, name=None, id=None)

Parâmetros

Name	Description
definition Necessário	<xref:azureml.data.DatasetDefinition> A definição Conjunto de dados.
workspace Necessário	Workspace A área de trabalho na qual o Conjunto de Dados existe.
name Necessário	str O nome do Conjunto de Dados.
id Necessário	str O identificador exclusivo do Conjunto de Dados.

Observações

A classe Conjunto de Dados expõe dois atributos de classe de conveniência (File e Tabular) que pode utilizar para criar um Conjunto de Dados sem trabalhar com os métodos de fábrica correspondentes. Por exemplo, para criar um conjunto de dados com estes atributos:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Também pode criar um novo TabularDataset ou FileDataset ao chamar diretamente os métodos de fábrica correspondentes da classe definida em TabularDatasetFactory e FileDatasetFactory.

O exemplo seguinte mostra como criar um TabularDataset que aponta para um caminho individual num arquivo de dados.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

O exemplo completo está disponível a partir de https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variáveis

Name	Description
azureml.core.Dataset.File	Um atributo de classe que fornece acesso aos métodos FileDatasetFactory para criar novos objetos FileDataset. Utilização: Dataset.File.from_files().
azureml.core.Dataset.Tabular	Um atributo de classe que fornece acesso aos métodos TabularDatasetFactory para criar novos objetos TabularDataset. Utilização: Dataset.Tabular.from_delimited_files().

Métodos

archive	Arquivar um conjunto de dados ativo ou preterido. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
auto_read_files	Analisa os ficheiros no caminho especificado e devolve um novo Conjunto de Dados. Nota Este método foi preterido e deixará de ser suportado. Recomendamos que utilize os métodos Dataset.Tabular.from_* para ler ficheiros. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
compare_profiles	Compare o perfil atual do Conjunto de Dados com outro perfil de conjunto de dados. Isto mostra as diferenças nas estatísticas de resumo entre dois conjuntos de dados. O parâmetro "rhs_dataset" significa "lado direito" e é simplesmente o segundo conjunto de dados. O primeiro conjunto de dados (o objeto do conjunto de dados atual) é considerado o "lado esquerdo". Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
create_snapshot	Crie um instantâneo do Conjunto de Dados registado. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
delete_snapshot	Elimine o instantâneo do Conjunto de Dados por nome. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
deprecate	Preterir um conjunto de dados ativo numa área de trabalho por outro conjunto de dados. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
diff	Difunda o Conjunto de Dados atual com rhs_dataset. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_binary_files	Crie um Conjunto de Dados não registado na memória a partir de ficheiros binários. Nota Este método foi preterido e deixará de ser suportado. Em alternativa, recomendamos que utilize Dataset.File.from_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_delimited_files	Crie um Conjunto de Dados não registado na memória a partir de ficheiros delimitados. Nota Este método foi preterido e deixará de ser suportado. Em alternativa, recomendamos que utilize Dataset.Tabular.from_delimited_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Crie um Conjunto de Dados não registado na memória a partir de ficheiros do Excel. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_json_files	Crie um Conjunto de Dados não registado na memória a partir de ficheiros JSON. Nota Este método foi preterido e deixará de ser suportado. Recomendamos que utilize Dataset.Tabular.from_json_lines_files para ler a partir do ficheiro de linhas JSON. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Crie um Conjunto de Dados não registado na memória a partir de um dataframe do pandas. Nota Este método foi preterido e deixará de ser suportado. Em alternativa, recomendamos que utilize Dataset.Tabular.register_pandas_dataframe. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_parquet_files	Crie um Conjunto de Dados não registado na memória a partir de ficheiros parquet. Nota Este método foi preterido e deixará de ser suportado. Em alternativa, recomendamos que utilize Dataset.Tabular.from_parquet_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
from_sql_query	Crie um Conjunto de Dados não registado na memória a partir de uma consulta SQL. Nota Este método foi preterido e deixará de ser suportado. Em alternativa, recomendamos que utilize Dataset.Tabular.from_sql_query. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
generate_profile	Gerar novo perfil para o Conjunto de Dados. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get	Obtenha um Conjunto de Dados que já exista na área de trabalho ao especificar o respetivo nome ou ID. Nota Este método foi preterido e deixará de ser suportado. Recomendamos que utilize get_by_name e, get_by_id em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_all	Obtenha todos os conjuntos de dados registados na área de trabalho.
get_all_snapshots	Obtenha todos os instantâneos do Conjunto de Dados. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_by_id	Obtenha um Conjunto de Dados guardado na área de trabalho.
get_by_name	Obtenha um Conjunto de Dados registado da área de trabalho pelo respetivo nome de registo.
get_definition	Obtenha uma definição específica do Conjunto de Dados. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_definitions	Obtenha todas as definições do Conjunto de Dados. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_profile	Obtenha estatísticas de resumo sobre o Conjunto de dados calculado anteriormente. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
get_snapshot	Obtenha o instantâneo do Conjunto de Dados por nome. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
head	Extraia o número especificado de registos especificados a partir deste Conjunto de Dados e devolve-os como um DataFrame. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
list	Liste todos os Conjuntos de dados na área de trabalho, incluindo os com `is_visible` propriedade igual a Falso. Nota Este método foi preterido e deixará de ser suportado. Em alternativa, recomendamos que utilize get_all . Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
reactivate	Reativar um conjunto de dados arquivado ou preterido. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
register	Registe o Conjunto de Dados na área de trabalho, disponibilizando-o a outros utilizadores da área de trabalho. Nota Este método foi preterido e deixará de ser suportado. Em alternativa, recomendamos que utilize register . Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
sample	Gere um novo exemplo a partir do Conjunto de Dados de origem, utilizando a estratégia de amostragem e os parâmetros fornecidos. Nota Este método foi preterido e deixará de ser suportado. Crie um TabularDataset ao chamar os métodos estáticos em Dataset.Tabular e utilize o take_sample método aí. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de Conjunto de Dados. Nota Este método foi preterido e deixará de ser suportado. Crie um TabularDataset ao chamar os métodos estáticos em Dataset.Tabular e utilize o to_pandas_dataframe método aí. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
to_spark_dataframe	Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por esta definição de Conjunto de Dados. Nota Este método foi preterido e deixará de ser suportado. Crie um TabularDataset ao chamar os métodos estáticos em Dataset.Tabular e utilize o to_spark_dataframe método aí. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
update	Atualize os atributos mutáveis do Conjunto de Dados na área de trabalho e devolva o Conjunto de Dados atualizado da área de trabalho. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.
update_definition	Atualize a definição conjunto de dados. Nota Este método foi preterido e deixará de ser suportado. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

auto_read_files

Analisa os ficheiros no caminho especificado e devolve um novo Conjunto de Dados.

Nota

Este método foi preterido e deixará de ser suportado.

Recomendamos que utilize os métodos Dataset.Tabular.from_* para ler ficheiros. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parâmetros

Name	Description
path Necessário	DataReference ou str Um caminho de dados num arquivo de dados registado, num caminho local ou num URL HTTP (CSV/TSV).
include_path Necessário	bool Se pretende incluir uma coluna que contém o caminho do ficheiro a partir do qual os dados foram lidos. Útil ao ler vários ficheiros e pretende saber de que ficheiro teve origem um determinado registo. Também é útil se existirem informações no caminho do ficheiro ou no nome que pretende numa coluna.
partition_format Necessário	str Especifique o formato de partição no caminho e crie colunas de cadeia a partir do formato '{x}' e da coluna datetime do formato '{x:yyyy/MM/dd/HH/mm/ss}', em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para extrat ano, mês, dia, hora, minuto e segundo para o tipo de data/hora. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado um caminho de ficheiro ".. /Accounts/2019/01/01/data.csv" em que os dados são particionados pelo nome e hora do departamento, podemos definir "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" para criar as colunas "Department" do tipo de cadeia e "PartitionDate" do tipo datetime.

Devoluções

Tipo	Description
Dataset	Objeto de conjunto de dados.

Observações

Utilize este método para detetar automaticamente formatos de ficheiro e delimitadores.

Depois de criar um Conjunto de Dados, deve utilizar get_profile para listar os tipos de coluna detetados e as estatísticas de resumo de cada coluna.

O Conjunto de Dados devolvido não está registado na área de trabalho.

compare_profiles

Compare o perfil atual do Conjunto de Dados com outro perfil de conjunto de dados.

Isto mostra as diferenças nas estatísticas de resumo entre dois conjuntos de dados. O parâmetro "rhs_dataset" significa "lado direito" e é simplesmente o segundo conjunto de dados. O primeiro conjunto de dados (o objeto do conjunto de dados atual) é considerado o "lado esquerdo".

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parâmetros

Name	Description
rhs_dataset Necessário	Dataset Um segundo Conjunto de Dados, também denominado conjunto de dados "lado direito" para comparação.
profile_arguments Necessário	dict Argumentos para repetir um perfil específico.
include_columns Necessário	list[str] Lista de nomes de colunas a incluir em comparação.
exclude_columns Necessário	list[str] Lista de nomes de colunas a excluir em comparação.
histogram_compare_method Necessário	HistogramCompareMethod Enum descrevendo o método de comparação, ex: Wasserstein ou Energy

Devoluções

Tipo	Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	Diferença entre os dois perfis do conjunto de dados.

Observações

Isto destina-se apenas a Conjuntos de Dados registados. Gera uma exceção se o perfil do Conjunto de Dados atual não existir. Para conjuntos de dados não registados, utilize o método profile.compare.

create_snapshot

Crie um instantâneo do Conjunto de Dados registado.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parâmetros

Name	Description
snapshot_name Necessário	str O nome do instantâneo. Os nomes dos instantâneos devem ser exclusivos num Conjunto de Dados.
compute_target Necessário	Union[ComputeTarget, str] Destino de computação opcional para efetuar a criação do perfil de instantâneo. Se omitido, é utilizada a computação local.
create_data_snapshot Necessário	bool Se For Verdadeiro, será criada uma cópia materializada dos dados.
target_datastore Necessário	Union[AbstractAzureStorageDatastore, str] Arquivo de dados de destino para guardar o instantâneo. Se omitido, o instantâneo será criado no armazenamento predefinido da área de trabalho.

Devoluções

Tipo	Description
DatasetSnapshot	Objeto instantâneo do conjunto de dados.

Observações

Os instantâneos capturam estatísticas de resumo do ponto no tempo dos dados subjacentes e uma cópia opcional dos próprios dados. Para saber mais sobre como criar instantâneos, aceda a https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Elimine o instantâneo do Conjunto de Dados por nome.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parâmetros

Name	Description
snapshot_name Necessário	str O nome do instantâneo.

Devoluções

Tipo	Description
None	Nenhum.

Observações

Utilize-o para libertar o armazenamento consumido pelos dados guardados em instantâneos de que já não precisa.

deprecate

Preterir um conjunto de dados ativo numa área de trabalho por outro conjunto de dados.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parâmetros

Name	Description
deprecate_by_dataset_id Necessário	str O ID do Conjunto de Dados que é a substituição pretendida para este Conjunto de Dados.

Devoluções

Tipo	Description
None	Nenhum.

Observações

Os Conjuntos de Dados preteridos registarão avisos quando forem consumidos. A preterição de um conjunto de dados descontinua todas as definições.

Os Conjuntos de Dados Preteridos ainda podem ser consumidos. Para bloquear completamente a utilização de um Conjunto de Dados, arquive-o.

Se for preterido por acidente, a reativação irá ativá-lo.

diff

Difunda o Conjunto de Dados atual com rhs_dataset.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parâmetros

Name	Description
rhs_dataset Necessário	Dataset Outro Conjunto de Dados também denominado Conjunto de Dados do lado direito para comparação
compute_target Necessário	Union[ComputeTarget, str] destino de computação para executar a diferença. Se omitido, é utilizada a computação local.
columns Necessário	list[str] Lista de nomes de colunas a incluir na difusão.

Devoluções

Tipo	Description
DatasetActionRun	Objeto de execução de ação do conjunto de dados.

from_binary_files

Crie um Conjunto de Dados não registado na memória a partir de ficheiros binários.

Nota

Este método foi preterido e deixará de ser suportado.

Em alternativa, recomendamos que utilize Dataset.File.from_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parâmetros

Name	Description
path Necessário	DataReference ou str Um caminho de dados num arquivo de dados registado ou num caminho local.

Devoluções

Tipo	Description
Dataset	O objeto Conjunto de Dados.

Observações

Utilize este método para ler ficheiros como fluxos de dados binários. Devolve um objeto de fluxo de ficheiros por ficheiro lido. Utilize este método quando estiver a ler imagens, vídeos, áudio ou outros dados binários.

get_profile e create_snapshot não funcionará conforme esperado para um Conjunto de dados criado por este método.

O Conjunto de Dados devolvido não está registado na área de trabalho.

from_delimited_files

Crie um Conjunto de Dados não registado na memória a partir de ficheiros delimitados.

Nota

Este método foi preterido e deixará de ser suportado.

Em alternativa, recomendamos que utilize Dataset.Tabular.from_delimited_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parâmetros

Name	Description
path Necessário	DataReference ou str Um caminho de dados num arquivo de dados registado, num caminho local ou num URL HTTP.
separator Necessário	str O separador utilizado para dividir colunas.
header Necessário	PromoteHeadersBehavior Controla a forma como os cabeçalhos de coluna são promovidos ao ler a partir de ficheiros.
encoding Necessário	FileEncoding A codificação dos ficheiros que estão a ser lidos.
quoting Necessário	bool Especifique como processar novos carateres de linha dentro de aspas. A predefinição (Falso) é interpretar os novos carateres de linha como iniciando novas linhas, independentemente de os novos carateres de linha estarem ou não dentro de aspas. Se estiver definido como Verdadeiro, os novos carateres de linha dentro das aspas não resultarão em novas linhas e a velocidade de leitura dos ficheiros irá abrandar.
infer_column_types Necessário	bool Indica se os tipos de dados de colunas são inferidos.
skip_rows Necessário	int Quantas linhas ignorar nos ficheiros que estão a ser lidos.
skip_mode Necessário	SkipLinesBehavior Controla a forma como as linhas são ignoradas ao ler a partir de ficheiros.
comment Necessário	str Caráter utilizado para indicar linhas de comentários nos ficheiros que estão a ser lidos. As linhas que começam com esta cadeia serão ignoradas.
include_path Necessário	bool Se pretende incluir uma coluna que contém o caminho do ficheiro a partir do qual os dados foram lidos. Isto é útil quando está a ler vários ficheiros e quer saber de que ficheiro teve origem um determinado registo ou para manter informações úteis no caminho do ficheiro.
archive_options Necessário	<xref:azureml.dataprep.ArchiveOptions> Opções para o ficheiro de arquivo, incluindo o tipo de arquivo e o padrão glob de entrada. Neste momento, só suportamos ZIP como tipo de arquivo. Por exemplo, especificar `archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')` lê todos os ficheiros com o nome a terminar com "10-20.csv" no ZIP.
partition_format Necessário	str Especifique o formato de partição no caminho e crie colunas de cadeia a partir do formato '{x}' e da coluna datetime do formato '{x:yyyy/MM/dd/HH/mm/ss}', em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para ano extrato, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, com um caminho de ficheiro '.. /Accounts/2019/01/01/data.csv" em que os dados são particionados pelo nome e hora do departamento, podemos definir "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" para criar colunas "Departamento" do tipo de cadeia e "PartitionDate" do tipo datetime.

Devoluções

Tipo	Description
Dataset	Objeto de conjunto de dados.

Observações

Utilize este método para ler ficheiros de texto delimitados quando quiser controlar as opções utilizadas.

Depois de criar um Conjunto de Dados, deve utilizar get_profile para listar os tipos de coluna detetados e as estatísticas de resumo de cada coluna.

O Conjunto de Dados devolvido não está registado na área de trabalho.

from_excel_files

Crie um Conjunto de Dados não registado na memória a partir de ficheiros do Excel.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parâmetros

Name	Description
path Necessário	DataReference ou str Um caminho de dados num arquivo de dados registado ou num caminho local.
sheet_name Necessário	str O nome da folha do Excel a carregar. Por predefinição, lemos a primeira folha de cada ficheiro do Excel.
use_column_headers Necessário	bool Controla se deve utilizar a primeira linha como cabeçalhos de coluna.
skip_rows Necessário	int Quantas linhas ignorar nos ficheiros que estão a ser lidos.
include_path Necessário	bool Se pretende incluir uma coluna que contém o caminho do ficheiro a partir do qual os dados foram lidos. Isto é útil quando está a ler vários ficheiros e quer saber de que ficheiro teve origem um determinado registo ou para manter informações úteis no caminho do ficheiro.
infer_column_types Necessário	bool Se for verdadeiro, os tipos de dados de coluna serão inferidos.
partition_format Necessário	str Especifique o formato de partição no caminho e crie colunas de cadeia a partir do formato '{x}' e da coluna datetime do formato '{x:yyyy/MM/dd/HH/mm/ss}', em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para ano extrato, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, com um caminho de ficheiro '.. /Accounts/2019/01/01/data.xlsx" em que os dados são particionados pelo nome e hora do departamento, podemos definir "/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx" para criar colunas "Departamento" do tipo de cadeia e "PartitionDate" do tipo datetime.

Devoluções

Tipo	Description
Dataset	Objeto de conjunto de dados.

Observações

Utilize este método para ler ficheiros do Excel no formato .xlsx. Os dados podem ser lidos a partir de uma folha em cada ficheiro do Excel. Depois de criar um Conjunto de Dados, deve utilizar get_profile para listar os tipos de coluna detetados e as estatísticas de resumo de cada coluna. O Conjunto de Dados devolvido não está registado na área de trabalho.

from_json_files

Crie um Conjunto de Dados não registado na memória a partir de ficheiros JSON.

Nota

Este método foi preterido e deixará de ser suportado.

Recomendamos que utilize Dataset.Tabular.from_json_lines_files para ler a partir do ficheiro de linhas JSON. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parâmetros

Name	Description
path Necessário	DataReference ou str O caminho para os ficheiros ou pastas que pretende carregar e analisar. Pode ser um caminho local ou um url de Blob do Azure. A Globbing é suportada. Por exemplo, pode utilizar path = "./data*" para ler todos os ficheiros com o nome a começar com "dados".
encoding Necessário	FileEncoding A codificação dos ficheiros que estão a ser lidos.
flatten_nested_arrays Necessário	bool Controlo de propriedades que controlam o processamento de matrizes aninhadas por parte do programa. Se optar por aplanar matrizes JSON aninhadas, tal poderá resultar num número muito maior de linhas.
include_path Necessário	bool Se pretende incluir uma coluna que contém o caminho a partir do qual os dados foram lidos. Isto é útil quando está a ler vários ficheiros e poderá querer saber de que ficheiro teve origem um determinado registo ou manter informações úteis no caminho do ficheiro.
partition_format Necessário	str Especifique o formato de partição no caminho e crie colunas de cadeia a partir do formato '{x}' e da coluna datetime do formato '{x:yyyy/MM/dd/HH/mm/ss}', em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para ano extrato, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, com um caminho de ficheiro '.. /Contas/01/01/2019/data.json" e os dados são particionados pelo nome e hora do departamento, podemos definir "/{Department}/{PartitionDate:yyyy/MM/dd}/data.json" para criar colunas "Departamento" do tipo de cadeia e "PartitionDate" do tipo datetime.

Devoluções

Tipo	Description
Dataset	O objeto conjunto de dados local.

from_pandas_dataframe

Crie um Conjunto de Dados não registado na memória a partir de um dataframe do pandas.

Nota

Este método foi preterido e deixará de ser suportado.

Em alternativa, recomendamos que utilize Dataset.Tabular.register_pandas_dataframe. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parâmetros

Name	Description
dataframe Necessário	DataFrame O DataFrame do Pandas.
path Necessário	Union[DataReference, str] Um caminho de dados no arquivo de dados registado ou no caminho da pasta local.
in_memory Necessário	bool Quer leia o DataFrame a partir da memória em vez de persistir no disco.

Devoluções

Tipo	Description
Dataset	Um objeto conjunto de dados.

Observações

Utilize este método para converter um dataframe do Pandas num objeto conjunto de dados. Um Conjunto de dados criado por este método não pode ser registado, uma vez que os dados são provenientes da memória.

Se in_memory for Falso, o DataFrame do Pandas é convertido num ficheiro CSV localmente. Se pat for do tipo DataReference, o fotograma do Pandas será carregado para o arquivo de dados e o Conjunto de Dados será baseado na DataReference. Se ''path' for uma pasta local, o Conjunto de Dados será criado a partir do ficheiro local que não pode ser eliminado.

Gera uma exceção se o DataReference atual não for um caminho de pasta.

from_parquet_files

Crie um Conjunto de Dados não registado na memória a partir de ficheiros parquet.

Nota

Este método foi preterido e deixará de ser suportado.

Em alternativa, recomendamos que utilize Dataset.Tabular.from_parquet_files. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parâmetros

Name	Description
path Necessário	DataReference ou str Um caminho de dados num arquivo de dados registado ou num caminho local.
include_path Necessário	bool Se pretende incluir uma coluna que contém o caminho do ficheiro a partir do qual os dados foram lidos. Isto é útil quando está a ler vários ficheiros e quer saber de que ficheiro teve origem um determinado registo ou para manter informações úteis no caminho do ficheiro.
partition_format Necessário	str Especifique o formato de partição no caminho e crie colunas de cadeia a partir do formato '{x}' e da coluna datetime do formato '{x:yyyy/MM/dd/HH/mm/ss}', em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para ano extrato, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, com um caminho de ficheiro '.. /Accounts/2019/01/01/data.parquet' em que os dados são particionados pelo nome e hora do departamento, podemos definir "/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" para criar colunas "Departamento" de tipo de cadeia e "PartitionDate" do tipo datetime.

Devoluções

Tipo	Description
Dataset	Objeto de conjunto de dados.

Observações

Utilize este método para ler ficheiros Parquet.

Depois de criar um Conjunto de Dados, deve utilizar get_profile para listar os tipos de coluna detetados e as estatísticas de resumo de cada coluna.

O Conjunto de Dados devolvido não está registado na área de trabalho.

from_sql_query

Crie um Conjunto de Dados não registado na memória a partir de uma consulta SQL.

Nota

Este método foi preterido e deixará de ser suportado.

Em alternativa, recomendamos que utilize Dataset.Tabular.from_sql_query. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parâmetros

Name	Description
data_source Necessário	AzureSqlDatabaseDatastore Os detalhes do arquivo de dados SQL do Azure.
query Necessário	str A consulta a executar para ler dados.

Devoluções

Tipo	Description
Dataset	O objeto conjunto de dados local.

generate_profile

Gerar novo perfil para o Conjunto de Dados.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parâmetros

Name	Description
compute_target Necessário	Union[ComputeTarget, str] Um destino de computação opcional para efetuar a criação do perfil de instantâneo. Se omitido, é utilizada a computação local.
workspace Necessário	Workspace Área de trabalho, necessária para conjuntos de dados transitórios (não registados).
arguments Necessário	dict[str, object] Argumentos de perfil. Os argumentos válidos são: "include_stype_counts" do tipo bool. Verifique se os valores se parecem com alguns tipos semânticos bem conhecidos, como endereço de e-mail, Endereço IP (V4/V6), número de telefone dos EUA, código postal dos EUA, Latitude/Longitude. Ativar isto afeta o desempenho. "number_of_histogram_bins" do tipo int. Representa o número de caixas de histograma a utilizar para dados numéricos. O valor predefinido é 10.

Devoluções

Tipo	Description
DatasetActionRun	Objeto de execução de ação do conjunto de dados.

Observações

A chamada síncrona bloqueará até ser concluída. Chame get_result para obter o resultado da ação.

get

Obtenha um Conjunto de Dados que já exista na área de trabalho ao especificar o respetivo nome ou ID.

Nota

Este método foi preterido e deixará de ser suportado.

Recomendamos que utilize get_by_name e, get_by_id em vez disso. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parâmetros

Name	Description
workspace Necessário	Workspace A área de trabalho do AzureML existente na qual o Conjunto de Dados foi criado.
name Necessário	str O nome do Conjunto de Dados a obter.
id Necessário	str Um identificador exclusivo do Conjunto de Dados na área de trabalho.

Devoluções

Tipo	Description
Dataset	O Conjunto de Dados com o nome ou ID especificado.

Observações

Pode fornecer ou nameid. É gerada uma exceção se:

id e name são especificados, mas não correspondem.
o Conjunto de dados com o especificado name ou id não pode ser encontrado na área de trabalho.

get_all

Obtenha todos os conjuntos de dados registados na área de trabalho.

get_all()

Parâmetros

Name	Description
workspace Necessário	Workspace A área de trabalho do AzureML existente na qual os Conjuntos de Dados foram registados.

Devoluções

Tipo	Description
dict[str, Union[TabularDataset, FileDataset]]	Um dicionário de objetos TabularDataset e FileDataset com chave no respetivo nome de registo.

get_all_snapshots

Obtenha todos os instantâneos do Conjunto de Dados.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_all_snapshots()

Devoluções

Tipo	Description
list[DatasetSnapshot]	Lista de instantâneos do Conjunto de Dados.

get_by_id

Obtenha um Conjunto de Dados guardado na área de trabalho.

get_by_id(id, **kwargs)

Parâmetros

Name	Description
workspace Necessário	Workspace A área de trabalho do AzureML existente na qual o Conjunto de Dados é guardado.
id Necessário	str O ID do conjunto de dados.

Devoluções

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto do conjunto de dados. Se o conjunto de dados estiver registado, o respetivo nome de registo e versão também serão devolvidos.

get_by_name

Obtenha um Conjunto de Dados registado da área de trabalho pelo respetivo nome de registo.

get_by_name(name, version='latest', **kwargs)

Parâmetros

Name	Description
workspace Necessário	Workspace A área de trabalho do AzureML existente na qual o Conjunto de Dados foi registado.
name Necessário	str O nome do registo.
version Necessário	int A versão de registo. A predefinição é "mais recente".

Devoluções

Tipo	Description
Union[TabularDataset, FileDataset]	O objeto do conjunto de dados registado.

get_definition

Obtenha uma definição específica do Conjunto de Dados.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parâmetros

Name	Description
version_id Necessário	str O ID da versão da definição do Conjunto de Dados

Devoluções

Tipo	Description
DatasetDefinition	A definição conjunto de dados.

Observações

Se version_id for fornecido, o Azure Machine Learning tenta obter a definição correspondente a essa versão. Se essa versão não existir, é emitida uma exceção. Se version_id for omitido, a versão mais recente será obtida.

get_definitions

Obtenha todas as definições do Conjunto de Dados.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_definitions()

Devoluções

Tipo	Description
dict[str, DatasetDefinition]	Um dicionário de definições de conjuntos de dados.

Observações

Para conjuntos de dados não registados, existe apenas uma definição.

get_profile

Obtenha estatísticas de resumo sobre o Conjunto de dados calculado anteriormente.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parâmetros

Name	Description
arguments Necessário	dict[str, object] Argumentos de perfil.
generate_if_not_exist Necessário	bool Indica se pretende gerar um perfil se não existir.
workspace Necessário	Workspace Área de trabalho, necessária para conjuntos de dados transitórios (não registados).
compute_target Necessário	Union[ComputeTarget, str] Um destino de computação para executar a ação de perfil.

Devoluções

Tipo	Description
<xref:azureml.dataprep.DataProfile>	DataProfile do Conjunto de Dados.

Observações

Para um Conjunto de Dados registado numa área de trabalho do Azure Machine Learning, este método obtém um perfil existente que foi criado anteriormente ao chamar get_profile se ainda é válido. Os perfis são invalidados quando os dados alterados são detetados no Conjunto de Dados ou os argumentos para get_profile são diferentes dos utilizados quando o perfil foi gerado. Se o perfil não estiver presente ou for invalidado, generate_if_not_exist determinará se é gerado um novo perfil.

Para um Conjunto de dados que não está registado numa área de trabalho do Azure Machine Learning, este método é sempre executado generate_profile e devolve o resultado.

get_snapshot

Obtenha o instantâneo do Conjunto de Dados por nome.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parâmetros

Name	Description
snapshot_name Necessário	str O nome do instantâneo.

Devoluções

Tipo	Description
DatasetSnapshot	Objeto instantâneo do conjunto de dados.

head

Extraia o número especificado de registos especificados a partir deste Conjunto de Dados e devolve-os como um DataFrame.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

head(count)

Parâmetros

Name	Description
count Necessário	int O número de registos a solicitar.

Devoluções

Tipo	Description
DataFrame	Um DataFrame do Pandas.

list

Liste todos os Conjuntos de dados na área de trabalho, incluindo os com is_visible propriedade igual a Falso.

Nota

Este método foi preterido e deixará de ser suportado.

Em alternativa, recomendamos que utilize get_all . Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

static list(workspace)

Parâmetros

Name	Description
workspace Necessário	Workspace A área de trabalho para a qual pretende obter a lista de Conjuntos de Dados.

Devoluções

Tipo	Description
list[Dataset]	Uma lista de objetos do Conjunto de Dados.

reactivate

Reativar um conjunto de dados arquivado ou preterido.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

reactivate()

Devoluções

Tipo	Description
None	Nenhum.

register

Registe o Conjunto de Dados na área de trabalho, disponibilizando-o a outros utilizadores da área de trabalho.

Nota

Este método foi preterido e deixará de ser suportado.

Em alternativa, recomendamos que utilize register . Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parâmetros

Name	Description
workspace Necessário	Workspace A área de trabalho do AzureML na qual o Conjunto de Dados deve ser registado.
name Necessário	str O nome do Conjunto de Dados na área de trabalho.
description Necessário	str Uma descrição do Conjunto de Dados.
tags Necessário	dict[str, str] Etiquetas a associar ao Conjunto de Dados.
visible Necessário	bool Indica se o Conjunto de Dados está visível na IU. Se For Falso, o Conjunto de Dados está oculto na IU e disponível através do SDK.
exist_ok Necessário	bool Se For Verdadeiro, o método devolve o Conjunto de Dados se já existir na determinada área de trabalho, caso contrário, erro.
update_if_exist Necessário	bool Se `exist_ok` for Verdadeiro e `update_if_exist` for Verdadeiro, este método atualizará a definição e devolverá o Conjunto de Dados atualizado.

Devoluções

Tipo	Description
Dataset	Um objeto conjunto de dados registado na área de trabalho.

sample

Gere um novo exemplo a partir do Conjunto de Dados de origem, utilizando a estratégia de amostragem e os parâmetros fornecidos.

Nota

Este método foi preterido e deixará de ser suportado.

Crie um TabularDataset ao chamar os métodos estáticos em Dataset.Tabular e utilize o take_sample método aí. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parâmetros

Name	Description
sample_strategy Necessário	str Estratégia de exemplo a utilizar. Os valores aceites são "top_n", "simple_random" ou "estratificado".
arguments Necessário	dict[str, object] Um dicionário com chaves do "Argumento opcional" na lista apresentada acima e valores da coluna "Tipo". Só podem ser utilizados argumentos do método de amostragem correspondente. Por exemplo, para um tipo de exemplo "simple_random", só pode especificar um dicionário com chaves "probabilidade" e "seed".

Devoluções

Tipo	Description
Dataset	Objeto de conjunto de dados como uma amostra do conjunto de dados original.

Observações

Os exemplos são gerados ao executar o pipeline de transformação definido por este Conjunto de Dados e, em seguida, ao aplicar a estratégia de amostragem e os parâmetros aos dados de saída. Cada método de amostragem suporta os seguintes argumentos opcionais:

top_n
- Argumentos opcionais
  - n, escreva número inteiro. Selecione as primeiras N linhas como exemplo.
simple_random
- Argumentos opcionais
  - probabilidade, escreva float. Amostragem aleatória simples em que cada linha tem igual probabilidade de ser selecionada. A probabilidade deve ser um número entre 0 e 1.
  - seed, escreva float. Utilizado pelo gerador de números aleatórios. Utilize para repetibilidade.
estratificado
- Argumentos opcionais
  - colunas, escreva list[str]. Lista de colunas de estratos nos dados.
  - seed, escreva float. Utilizado pelo gerador de números aleatórios. Utilize para repetibilidade.
  - frações, escreva dict[tupla, float]. Cadeia de identificação: os valores das colunas que definem um estrato têm de estar na mesma ordem que os nomes das colunas. Float: peso ligado a um estrato durante a amostragem.

Os fragmentos de código seguintes são padrões de estrutura de exemplo para diferentes métodos de exemplo.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Crie um dataframe do Pandas ao executar o pipeline de transformação definido por esta definição de Conjunto de Dados.

Nota

Este método foi preterido e deixará de ser suportado.

Crie um TabularDataset ao chamar os métodos estáticos em Dataset.Tabular e utilize o to_pandas_dataframe método aí. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Devoluções

Tipo	Description
DataFrame	Um DataFrame do Pandas.

Observações

Devolver um DataFrame do Pandas totalmente materializado na memória.

to_spark_dataframe

Crie um DataFrame do Spark que possa executar o pipeline de transformação definido por esta definição de Conjunto de Dados.

Nota

Este método foi preterido e deixará de ser suportado.

Crie um TabularDataset ao chamar os métodos estáticos em Dataset.Tabular e utilize o to_spark_dataframe método aí. Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Devoluções

Tipo	Description
DataFrame	Um DataFrame do Spark.

Observações

O Dataframe do Spark devolvido é apenas um plano de execução e não contém dados, uma vez que os Dataframes do Spark são avaliados de forma preguiçosa.

update

Atualize os atributos mutáveis do Conjunto de Dados na área de trabalho e devolva o Conjunto de Dados atualizado da área de trabalho.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parâmetros

Name	Description
name Necessário	str O nome do Conjunto de Dados na área de trabalho.
description Necessário	str Uma descrição dos dados.
tags Necessário	dict[str, str] Etiquetas às qual associar o Conjunto de Dados.
visible Necessário	bool Indica se o Conjunto de Dados está visível na IU.

Devoluções

Tipo	Description
Dataset	Um objeto conjunto de dados atualizado da área de trabalho.

update_definition

Atualize a definição conjunto de dados.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parâmetros

Name	Description
definition Necessário	DatasetDefinition A nova definição deste Conjunto de Dados.
definition_update_message Necessário	str A mensagem de atualização de definições.

Devoluções

Tipo	Description
Dataset	Um objeto conjunto de dados atualizado da área de trabalho.

Observações

Para consumir o Conjunto de Dados atualizado, utilize o objeto devolvido por este método.

Atributos

definition

Devolver a definição atual do Conjunto de Dados.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Devoluções

Tipo	Description
DatasetDefinition	A definição Conjunto de dados.

Observações

Uma definição de Conjunto de dados é uma série de passos que especificam como ler e transformar dados.

Um Conjunto de dados registado numa área de trabalho do AzureML pode ter várias definições, cada uma criada ao chamar update_definition. Cada definição tem um identificador exclusivo. Ter várias definições permite-lhe fazer alterações aos Conjuntos de Dados existentes sem quebrar modelos e pipelines que dependem da definição mais antiga.

Para conjuntos de dados não registados, existe apenas uma definição.

definition_version

Devolver a versão da definição atual do Conjunto de Dados.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Devoluções

Tipo	Description
str	A versão de definição do Conjunto de dados.

Observações

Uma definição de Conjunto de dados é uma série de passos que especificam como ler e transformar dados.

Um Conjunto de dados registado numa área de trabalho do AzureML pode ter várias definições, cada uma criada ao chamar update_definition. Cada definição tem um identificador exclusivo. A definição atual é a mais recente criada, cujo ID é devolvido por esta definição.

Para conjuntos de dados não registados, existe apenas uma definição.

description

Devolva a descrição do Conjunto de Dados.

Devoluções

Tipo	Description
str	A descrição do Conjunto de dados.

Observações

Especificar uma descrição dos dados no Conjunto de Dados permite que os utilizadores da área de trabalho compreendam o que os dados representam e como podem utilizá-lo.

id

Se o Conjunto de Dados tiver sido registado numa área de trabalho, devolva o ID do Conjunto de Dados. Caso contrário, devolva Nenhum.

Devoluções

Tipo	Description
str	O ID do Conjunto de Dados.

is_visible

Controlar a visibilidade de um Conjunto de Dados registado na IU da área de trabalho do Azure ML.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Devoluções

Tipo	Description
bool	A visibilidade do Conjunto de Dados.

Observações

Valores devolvidos:

Verdadeiro: o conjunto de dados está visível na IU da área de trabalho. Predefinição.
Falso: o conjunto de dados está oculto na IU da área de trabalho.

Não tem qualquer efeito nos Conjuntos de Dados não registados.

name

Devolver o nome do Conjunto de Dados.

Devoluções

Tipo	Description
str	O Nome do conjunto de dados.

state

Devolver o estado do Conjunto de Dados.

Nota

Este método foi preterido e deixará de ser suportado.

Para obter mais informações, consulte https://aka.ms/dataset-deprecation.

Devoluções

Tipo	Description
str	O estado do Conjunto de Dados.

Observações

O significado e o efeito dos estados são os seguintes:

Ativo. As definições ativas são exatamente o que soam, todas as ações podem ser executadas em definições ativas.
Preterido. a definição preterida pode ser utilizada, mas resultará num aviso registado nos registos sempre que os dados subjacentes são acedidos.
Arquivado. Não é possível utilizar uma definição arquivada para efetuar qualquer ação. Para efetuar ações numa definição arquivada, tem de ser reativada.

workspace

Se o Conjunto de Dados tiver sido registado numa área de trabalho, devolva-o. Caso contrário, devolva Nenhum.

Devoluções

Tipo	Description
Workspace	A área de trabalho.

Partilhar via

Dataset Classe

Construtor

Parâmetros

Observações

Variáveis

Métodos

archive

Devoluções

Observações

auto_read_files

Parâmetros

Devoluções

Observações

compare_profiles

Parâmetros

Devoluções

Observações

create_snapshot

Parâmetros

Devoluções

Observações

delete_snapshot

Parâmetros

Devoluções

Observações

deprecate

Parâmetros

Devoluções

Observações

diff

Parâmetros

Devoluções

from_binary_files

Parâmetros

Devoluções

Observações

from_delimited_files

Parâmetros

Devoluções

Observações

from_excel_files

Parâmetros

Devoluções

Observações

from_json_files

Parâmetros

Devoluções

from_pandas_dataframe

Parâmetros

Devoluções

Observações

from_parquet_files

Parâmetros

Devoluções

Observações

from_sql_query

Parâmetros

Devoluções

generate_profile

Parâmetros

Devoluções

Observações

get

Parâmetros

Devoluções

Observações

get_all

Parâmetros

Devoluções

get_all_snapshots

Devoluções

get_by_id

Parâmetros

Devoluções

get_by_name

Parâmetros

Devoluções

get_definition

Parâmetros