Desempacotar conjuntos de dados compactados

Artigo
05/06/2019

Desempacota conjuntos de os DataSets de um pacote zip no armazenamento do usuário

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

este artigo descreve como usar o módulo desempacotar conjuntos de dados compactados no Machine Learning Studio (clássico), para carregar arquivos de script e de arquivo em formato compactado e, em seguida, descompactá-los para uso em um experimento.

A finalidade desse módulo é reduzir os tempos de transferência de dados ao trabalhar com conjuntos de grandes volumes de dados, salvando e carregando seus arquivos em formato compactado. Em geral, os arquivos compactados são uma boa opção quando o conjunto de seus DataSet é tão grande que você deseja usar a compactação para o upload, para minimizar o tempo de carregamento e os custos associados.

O módulo usa como entrada um conjunto de dados em seu espaço de trabalho. O conjunto de conjuntos deve ter sido carregado em um formato compactado. Em seguida, o módulo descompacta o conjunto de dados e os adiciona ao espaço de trabalho.

Como usar os conjuntos de valores compactados desempacotados

esta seção descreve como preparar seus dados e descompactá-los no Machine Learning Studio (clássico).

Etapa 1. Preparar os arquivos

Antes de carregar o arquivo, verifique se os dados no arquivo podem ser usados no Machine Learning:

Verifique se os dados no arquivo usam a codificação UTF-8.

se o arquivo for pequeno o suficiente, você poderá abri-lo no Bloco de notas e, em seguida, salvar o arquivo na codificação desejada. Muitos outros editores de texto oferecem funcionalidade semelhante. para arquivos CSV, você pode usar os comandos salvar como ou exportar do Excel para especificar um formato e uma codificação de arquivo.
Verifique se os arquivos de dados usam um formatocom suporte, como CSV, TSV, ARFF ou SVMLight.
Compacte os dados adicionando o arquivo de dados a um .ZIP ou. Arquivo morto de formato GZ. Não há suporte para outros tipos de arquivo.
Remova a proteção por senha. Se qualquer um dos arquivos ou a pasta compactada tiver sido criptografada ou protegida por senha, você deverá desbloquear ou descriptografar o arquivo antes de carregá-lo. O módulo não pode detectar tipos de dados criptografados e não oferece suporte a caixas de diálogo para entrada de senha de clientes arbitrários.

Etapa 2. Upload dataset ao seu espaço de trabalho

Em seguida, carregue o conjunto de testes compactado em seu espaço de trabalho de experimento.

Clique em novo, selecione conjuntode e selecione do arquivo local.
Localize o arquivo compactado a ser carregado. Quando você seleciona o arquivo, o tipo deve ser definido automaticamente como arquivo zip (.zip).

Etapa 3. Adicionar conjunto de testes zipado ao experimento

Depois que o conjunto de testes for completamente carregado, adicione-o ao seu experimento no formato compactado.

no painel de navegação à esquerda do Machine Learning Studio (clássico), selecione datasets salvose expanda meus conjuntosde os.
Localize o conjunto de teste compactado que você acabou de carregar e arraste-o para a tela do experimento.

Etapa 4. Desempacotar conjunto de um

A etapa final é desempacotar o conjunto de um.

Conexão o conjunto de dados compactado para a entrada do módulo desempacotar conjuntos de dados compactados .
Em conjunto de um para desempacotar, digite o nome de um único conjunto de um para desempacotar.
- se você salvou uma planilha com o nome plan1 como um arquivo CSV Excel chamado Test.csv, o nome do conjunto de um será Test.csv, e não Sheet1.
- O nome que você digitar na caixa de texto conjunto de um para desempacotar deve ser exatamente o mesmo que o nome do arquivo original antes de ser compactado, incluindo a extensão de nome de arquivo. Por exemplo, se você quiser desempacotar um conjunto de um DataSet com base no arquivo de texto Users.txt, digite Users.txt, e não os usuários.
- Se você colocar vários arquivos em uma pasta compactada, deverá desempacotar um conjunto de um de cada vez.
Dica

Se você deixar a propriedade em branco, o módulo obterá o nome de arquivo do arquivo compactado, supondo que o arquivo morto compactado contenha apenas um arquivo de origem. Se o arquivo compactado contiver vários arquivos, um erro em tempo de execução será gerado.
Para o formato de arquivo do conjunto de arquivos, especifique o formato original do conjunto de um: ou seja, o formato antes de ele ser compactado.

Você pode carregar e descompactar conjuntos de valores que foram criados usando qualquer um destes formatos: CSV, ARFF, TSV, SvmLight.

Se essa propriedade for deixada vazia, o módulo identificará o conjunto de espaço usando o nome do arquivo de origem.
Selecione a opção, arquivo tem a linha de cabeçalho, se o conjunto de um original tiver uma linha de cabeçalho. Caso contrário, a primeira linha de dados será usada como o cabeçalho. Se isso não for o que você deseja, adicione um cabeçalho antes da entrada.

Essa opção se aplica somente a .CSV e. Arquivos TSV.

Observação

Se você alterar o formato do arquivo, essa opção será redefinida.
Se o arquivo estiver compactado, use a opção formato de arquivo de compactação para especificar o algoritmo que foi usado para compactar ou expandir o arquivo.

Atualmente, há suporte para os formatos .ZIP e GZ (ou gzip).
Execute o experimento.

Resultados

Para verificar se os dados foram importados corretamente, clique com o botão direito do mouse no módulo de conjuntos de dados compactados desempacotados e selecione Visualizar .
Para alterar o nome do conjunto de um, clique com o botão direito do mouse no módulo pacotes de conjuntos de bits desempacotados e selecione salvar como conjunto delinhas. Neste ponto, você pode digitar um nome diferente.

Essa opção será útil se você estiver desempacotando vários conjuntos de arquivos de um único arquivo ZIP.

Exemplos

Para demonstrar como esse módulo funciona, criamos um arquivo de .ZIP de exemplo contendo quatro arquivos CSV diferentes. Todos os arquivos foram salvos de Excel.

Nome do arquivo	Descrição
names-uni.csv	Arquivo Unicode com títulos de coluna
names-utf.csv	Arquivo UTF-8 com cabeçalhos de coluna
nonames-uni.csv	Arquivo Unicode sem títulos de coluna
nonames-utf8.csv	Arquivo UTF-8 sem títulos de coluna

O arquivo compactado inteiro foi carregado e, em seguida, o módulo desempacotar conjuntos de arquivos compactados foi executado quatro vezes para extrair cada um dos quatro arquivos, usando estas configurações:

Conjunto de linhas a ser desempacotado = names-uni.csv, o arquivo tem a linha de cabeçalho = true
Conjunto de linhas a ser desempacotado = names-utf8.csv, o arquivo tem a linha de cabeçalho = true
Conjunto de linhas para desempacotar = nonames-uni.csv, o arquivo tem cabeçalho linha = falso
Conjunto de linhas para desempacotar = nonames-utf8.csv, o arquivo tem cabeçalho linha = falso

Os resultados foram conforme o esperado:

Nome do arquivo	resultado de Upload
names-uni.csv	Erro 0049: erro ao analisar o arquivo. O arquivo não é codificado em Unicode (UTF-8)
names-utf8.csv	Êxito. Usa nomes de coluna originais do arquivo de origem.
nonames-uni.csv	Erro 0049: erro ao analisar o arquivo. O arquivo não é codificado em Unicode (UTF-8)
nonames-utf8.csv	Êxito. Nomes de colunas Col1, Col2,... a colunan é adicionada automaticamente ao conjunto de os.

Observação

Se você usar a opção, File tem cabeçalho Row = true e o arquivo de origem não tiver um título de coluna, a primeira linha de dados será usada como o título de coluna.

Observações técnicas

Você não pode usar este módulo para desempacotar pacotes R compactados em seu espaço de trabalho. Os pacotes de R devem ser carregados e consumidos como arquivos compactados.

Para obter mais informações sobre como trabalhar com pacotes de R compactados, consulte Executar script r.

Observação

Confuso sobre a diferença entre UTF-8 e Unicode? Consulte este artigo da Wikipédia: o que é UTF-8

Parâmetros do módulo

Nome	Intervalo	Type	Padrão	Descrição
Formato do arquivo de compactação	Zip Gzip	regra de compactação	Zip	Algoritmo de compactação usado para compactar ou expandir o arquivo.
Conjunto de um para desempacotar	Qualquer	String	nenhum	nome do conjunto de registros a ser registrado com o ML Studio do Azure (clássico). Se o nome de um conjunto de um DataSet não for especificado, o nome será obtido do nome do arquivo no arquivo compactado.
Formato de arquivo do conjunto de arquivos	CSV TSV ARFF SVMLIGHT	Formato de arquivo	CSV	Formato de arquivo do conjunto de entrada no arquivo compactado
O arquivo tem uma linha de cabeçalho	TRUE/FALSE	Booliano	Falso	Definir como true somente se o arquivo CSV/TSV tiver uma linha de cabeçalho

Entradas esperadas

Nome	Tipo	Descrição
Dataset	Zip	Arquivo compactado contendo conjuntos de os

Saída

Nome	Tipo	Descrição
Conjunto de dados de resultados	Tabela de Dados	Conjunto de dados de saída

Confira também

Entrada e saída de dados

Compartilhar via

Desempacotar conjuntos de dados compactados

Visão geral do módulo

Como usar os conjuntos de valores compactados desempacotados

Etapa 1. Preparar os arquivos

Etapa 2. Upload dataset ao seu espaço de trabalho

Etapa 3. Adicionar conjunto de testes zipado ao experimento

Etapa 4. Desempacotar conjunto de um

Resultados

Exemplos

Observações técnicas

Parâmetros do módulo

Entradas esperadas

Saída

Confira também

Recursos adicionais