Partilhar via


Desembalar conjuntos de dados com fecho de dia

Desembala conjuntos de dados de um pacote zip no armazenamento do utilizador

Categoria: Entrada e Saída de Dados

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como utilizar o módulo de conjuntos de dados desembalados zipped no Machine Learning Studio (clássico), para carregar ficheiros de dados e scripts em formato comprimido e, em seguida, desapertá-los para serem utilizados numa experiência.

O objetivo deste módulo é reduzir os tempos de transferência de dados quando se trabalha com conjuntos de dados muito grandes, guardando e carregando os seus ficheiros de dados num formato comprimido. Geralmente, os ficheiros zipping são uma boa opção quando o seu conjunto de dados é tão grande que pretende utilizar a compressão para o upload, para minimizar o tempo de upload e os custos associados.

O módulo toma como entrada um conjunto de dados no seu espaço de trabalho. O conjunto de dados deve ter sido carregado num formato comprimido. Em seguida, o módulo descomprime o conjunto de dados e adiciona os dados ao seu espaço de trabalho.

Como utilizar conjuntos de dados zipped desembalados

Esta secção descreve como preparar os seus dados e, em seguida, desapertá-lo em Machine Learning Studio (clássico).

Passo 1. Preparar ficheiros

Antes de fazer o upload do seu ficheiro, certifique-se de que os dados do ficheiro podem ser utilizados em Machine Learning:

  • Certifique-se de que os dados do ficheiro utilizam a codificação UTF-8.

    Se o ficheiro for pequeno o suficiente, pode abri-lo em Bloco de notas e, em seguida, guardar o ficheiro na codificação desejada. Muitos outros editores de texto oferecem funcionalidades semelhantes. Para ficheiros CSV, pode utilizar os comandos Save As ou Export da Excel para especificar um formato de ficheiro e codificação.

  • Verifique se os ficheiros de dados utilizam um formato suportado, como CSV, TSV, ARFF ou SVMLight.

  • Comprimia os dados adicionando o ficheiro de dados a um .ZIP ou . Arquivo de arquivo de formato GZ. Outros tipos de arquivo não são suportados.

  • Remova a proteção da palavra-passe. Se algum dos ficheiros ou a própria pasta comprimida tiver sido encriptada ou protegida por palavra-passe, deve desbloquear ou desencriptar o ficheiro antes de o fazer o upload. O módulo não consegue detetar tipos de dados encriptados e não suporta caixas de diálogo para a entrada de palavra-passe de clientes arbitrários.

Passo 2. Faça o upload do conjunto de dados para o seu espaço de trabalho

Em seguida, faça o upload do conjunto de dados com fecho para o seu espaço de trabalho da experiência.

  1. Clique EM NOVO, selecione DATASET e selecione A PARTIR DE ARQUIVO LOCAL.

  2. Localize o ficheiro com fecho para carregar. Quando selecionar o ficheiro, o tipo deve ser automaticamente configurado para o ficheiro Zip (.zip).

Passo 3. Adicione conjunto de dados com fecho para experimentar

Depois de o conjunto de dados ter sido completamente carregado, adicione-o à sua experiência em formato zipped.

  1. No painel de navegação à esquerda do Machine Learning Studio (clássico), selecione Conjuntos de dados guardados e, em seguida, expanda os meus conjuntos de dados.

  2. Localize o conjunto de dados com fecho que acabou de carregar e arraste-o para a tela de experimentação.

Passo 4: Desembalar conjunto de dados

O passo final é desembalar o conjunto de dados.

  1. Ligação o conjunto de dados com fecho para a entrada do módulo Desembalado Zipped Datasets.

  2. No Dataset to Unpack, digite o nome de um único conjunto de dados para desembalar.

    • Se guardou uma folha de cálculo com o nome Sheet1 como Excel ficheiro CSV nomeado Test.csv, o nome do conjunto de dados seria Test.csv, e não folha1.

    • O nome que digita na caixa de texto Desembalar deve ser exatamente o mesmo que o nome do ficheiro original antes de ser comprimido, incluindo a extensão do nome do ficheiro. Por exemplo, se pretender desembalar um conjunto de dados com base no ficheiro de textoUsers.txt, escreva Users.txt, não os Utilizadores.

    • Se colocar vários ficheiros numa pasta comprimido, deve desembalar um conjunto de dados de cada vez.

    Dica

    Se deixar a propriedade em branco, o módulo obtém o nome do ficheiro a partir do ficheiro com fecho, assumindo que o ficheiro de arquivo comprimido contém apenas um ficheiro de origem. Se o arquivo comprimido contiver vários ficheiros, é levantado um erro de tempo de execução.

  3. Para o formato de ficheiro Dataset, especifique o formato original do conjunto de dados: isto é, o formato antes de ser fechado.

    Pode carregar e desapertar conjuntos de dados que foram criados utilizando qualquer um destes formatos: CSV, ARFF, TSV, SvmLight.

    Se esta propriedade ficar vazia, o módulo identifica o conjunto de dados usando o nome do ficheiro de origem.

  4. Selecione a opção, O Ficheiro tem linha de cabeçalho, se o conjunto de dados original tiver uma linha de cabeçalho. Caso contrário, a primeira linha de dados é usada como cabeçalho. Se não for isto que deseja, adicione um cabeçalho antes da entrada.

    Esta opção aplica-se apenas a .CSV e . Ficheiros TSV.

    Nota

    Se alterar o formato do ficheiro, esta opção é reiniciada.

  5. Se o ficheiro for comprimido, utilize a opção de formato de ficheiro de compressão para especificar o algoritmo utilizado para comprimir ou expandir o ficheiro.

    Atualmente, os formatos .ZIP e GZ (ou Gzip) são suportados.

  6. Execute a experimentação.

Resultados

  • Para verificar se os dados foram importados corretamente, clique com o botão direito no módulo de conjuntos de dados zipped desembalados e selecione Visualize .

  • Para alterar o nome do conjunto de dados, clique no módulo conjuntos de dados zipped desembalado e selecione Guardar como conjunto de dados. Neste ponto pode escrever um nome diferente.

    Esta opção é útil se estiver a desembalar vários conjuntos de dados a partir de um único ficheiro ZIP.

Exemplos

Para demonstrar como este módulo funciona, criámos uma amostra .ZIP ficheiro contendo quatro ficheiros CSV diferentes. Todos os ficheiros foram guardados de Excel.

Nome de ficheiro Description
names-uni.csv Ficheiro Unicode com rubricas de colunas
names-utf.csv Ficheiro UTF-8 com rubricas de colunas
nonames-uni.csv Ficheiro Unicode sem rubricas de colunas
nonames-utf8.csv Ficheiro UTF-8 sem rubricas de colunas

Todo o ficheiro com fecho foi carregado e, em seguida, o módulo Desembalado Zipped Datasets foi executado quatro vezes para extrair cada um dos quatro ficheiros, utilizando estas definições:

  1. Conjunto de dados para desembalar = names-uni.csv, O Ficheiro tem linha de cabeçalho = TRUE
  2. Conjunto de dados para desembalar = names-utf8.csv, O Ficheiro tem linha de cabeçalho = TRUE
  3. Conjunto de dados para desembalar = nonames-uni.csv, O Ficheiro tem linha de cabeçalho = FALSO
  4. Conjunto de dados para desembalar = nonames-utf8.csv, O Ficheiro tem linha de cabeçalho = FALSO

Os resultados foram como esperado:

Nome de ficheiro Resultado do upload
names-uni.csv Erro 0049: Erro enquanto analisa o ficheiro. O ficheiro não está codificado pelo Unicode (UTF-8)
names-utf8.csv Com êxito. Utiliza nomes de colunas originais a partir de ficheiros de origem.
nonames-uni.csv Erro 0049: Erro enquanto analisa o ficheiro. O ficheiro não está codificado pelo Unicode (UTF-8)
nonames-utf8.csv Com êxito. A coluna chama Col1, col2, ... coln são automaticamente adicionados ao conjunto de dados.

Nota

Se utilizar a opção, o Ficheiro tem linha de cabeçalho = TRUE, e o ficheiro de origem não tem uma posição de coluna, a primeira linha de dados é usada como título de coluna.

Notas técnicas

Não é possível utilizar este módulo para desempacotar pacotes R com fecho no seu espaço de trabalho. Os pacotes R devem ser carregados e consumidos como ficheiros com fecho.

Para obter mais informações sobre como trabalhar com pacotes R zipped, consulte Executar O Script R.

Nota

Confuso sobre a diferença entre UTF-8 e Unicode? Veja este artigo na Wikipédia: O que é UTF-8

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Description
Formato de ficheiro de compressão Zip

Rio Gzip
regra de compressão Zip Algoritmo de compressão usado para comprimir ou expandir o ficheiro.
Conjunto de dados para Desembalar Qualquer String nenhum Nome do conjunto de dados para registar no Azure ML Studio (clássico). Se o nome de um conjunto de dados não for especificado, o nome é obtido a partir do nome do ficheiro no ficheiro com fecho.
Formato de ficheiro dataset CSV

TSV

ARFF

SVMLIGHT
Formato do ficheiro CSV Formato de ficheiro do conjunto de dados no ficheiro com fecho
Arquivo tem linha de cabeçalho VERDADEIRO/FALSO Booleano Falso Configurar para True apenas se o ficheiro CSV/TSV tiver uma linha de cabeçalho

Entradas esperadas

Nome Tipo Description
Conjunto de dados Zip Ficheiro com fecho contendo conjuntos de dados

Saída

Nome Tipo Description
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de saída

Ver também

Entrada e saída de dados