Desempacotar conjuntos de dados compactados
Desempacota conjuntos de os DataSets de um pacote zip no armazenamento do usuário
Categoria: entrada e saída de dados
Observação
aplica-se a: somente Machine Learning Studio (clássico)
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Visão geral do módulo
este artigo descreve como usar o módulo desempacotar conjuntos de dados compactados no Machine Learning Studio (clássico), para carregar arquivos de script e de arquivo em formato compactado e, em seguida, descompactá-los para uso em um experimento.
A finalidade desse módulo é reduzir os tempos de transferência de dados ao trabalhar com conjuntos de grandes volumes de dados, salvando e carregando seus arquivos em formato compactado. Em geral, os arquivos compactados são uma boa opção quando o conjunto de seus DataSet é tão grande que você deseja usar a compactação para o upload, para minimizar o tempo de carregamento e os custos associados.
O módulo usa como entrada um conjunto de dados em seu espaço de trabalho. O conjunto de conjuntos deve ter sido carregado em um formato compactado. Em seguida, o módulo descompacta o conjunto de dados e os adiciona ao espaço de trabalho.
Como usar os conjuntos de valores compactados desempacotados
esta seção descreve como preparar seus dados e descompactá-los no Machine Learning Studio (clássico).
Etapa 1. Preparar os arquivos
Antes de carregar o arquivo, verifique se os dados no arquivo podem ser usados no Machine Learning:
Verifique se os dados no arquivo usam a codificação UTF-8.
se o arquivo for pequeno o suficiente, você poderá abri-lo no Bloco de notas e, em seguida, salvar o arquivo na codificação desejada. Muitos outros editores de texto oferecem funcionalidade semelhante. para arquivos CSV, você pode usar os comandos salvar como ou exportar do Excel para especificar um formato e uma codificação de arquivo.
Verifique se os arquivos de dados usam um formatocom suporte, como CSV, TSV, ARFF ou SVMLight.
Compacte os dados adicionando o arquivo de dados a um .ZIP ou. Arquivo morto de formato GZ. Não há suporte para outros tipos de arquivo.
Remova a proteção por senha. Se qualquer um dos arquivos ou a pasta compactada tiver sido criptografada ou protegida por senha, você deverá desbloquear ou descriptografar o arquivo antes de carregá-lo. O módulo não pode detectar tipos de dados criptografados e não oferece suporte a caixas de diálogo para entrada de senha de clientes arbitrários.
Etapa 2. Upload dataset ao seu espaço de trabalho
Em seguida, carregue o conjunto de testes compactado em seu espaço de trabalho de experimento.
Clique em novo, selecione conjuntode e selecione do arquivo local.
Localize o arquivo compactado a ser carregado. Quando você seleciona o arquivo, o tipo deve ser definido automaticamente como arquivo zip (.zip).
Etapa 3. Adicionar conjunto de testes zipado ao experimento
Depois que o conjunto de testes for completamente carregado, adicione-o ao seu experimento no formato compactado.
no painel de navegação à esquerda do Machine Learning Studio (clássico), selecione datasets salvose expanda meus conjuntosde os.
Localize o conjunto de teste compactado que você acabou de carregar e arraste-o para a tela do experimento.
Etapa 4. Desempacotar conjunto de um
A etapa final é desempacotar o conjunto de um.
Conexão o conjunto de dados compactado para a entrada do módulo desempacotar conjuntos de dados compactados .
Em conjunto de um para desempacotar, digite o nome de um único conjunto de um para desempacotar.
se você salvou uma planilha com o nome plan1 como um arquivo CSV Excel chamado Test.csv, o nome do conjunto de um será Test.csv, e não Sheet1.
O nome que você digitar na caixa de texto conjunto de um para desempacotar deve ser exatamente o mesmo que o nome do arquivo original antes de ser compactado, incluindo a extensão de nome de arquivo. Por exemplo, se você quiser desempacotar um conjunto de um DataSet com base no arquivo de texto Users.txt, digite Users.txt, e não os usuários.
Se você colocar vários arquivos em uma pasta compactada, deverá desempacotar um conjunto de um de cada vez.
Dica
Se você deixar a propriedade em branco, o módulo obterá o nome de arquivo do arquivo compactado, supondo que o arquivo morto compactado contenha apenas um arquivo de origem. Se o arquivo compactado contiver vários arquivos, um erro em tempo de execução será gerado.
Para o formato de arquivo do conjunto de arquivos, especifique o formato original do conjunto de um: ou seja, o formato antes de ele ser compactado.
Você pode carregar e descompactar conjuntos de valores que foram criados usando qualquer um destes formatos: CSV, ARFF, TSV, SvmLight.
Se essa propriedade for deixada vazia, o módulo identificará o conjunto de espaço usando o nome do arquivo de origem.
Selecione a opção, arquivo tem a linha de cabeçalho, se o conjunto de um original tiver uma linha de cabeçalho. Caso contrário, a primeira linha de dados será usada como o cabeçalho. Se isso não for o que você deseja, adicione um cabeçalho antes da entrada.
Essa opção se aplica somente a .CSV e. Arquivos TSV.
Observação
Se você alterar o formato do arquivo, essa opção será redefinida.
Se o arquivo estiver compactado, use a opção formato de arquivo de compactação para especificar o algoritmo que foi usado para compactar ou expandir o arquivo.
Atualmente, há suporte para os formatos .ZIP e GZ (ou gzip).
Execute o experimento.
Resultados
Para verificar se os dados foram importados corretamente, clique com o botão direito do mouse no módulo de conjuntos de dados compactados desempacotados e selecione Visualizar .
Para alterar o nome do conjunto de um, clique com o botão direito do mouse no módulo pacotes de conjuntos de bits desempacotados e selecione salvar como conjunto delinhas. Neste ponto, você pode digitar um nome diferente.
Essa opção será útil se você estiver desempacotando vários conjuntos de arquivos de um único arquivo ZIP.
Exemplos
Para demonstrar como esse módulo funciona, criamos um arquivo de .ZIP de exemplo contendo quatro arquivos CSV diferentes. Todos os arquivos foram salvos de Excel.
Nome do arquivo | Descrição |
---|---|
names-uni.csv | Arquivo Unicode com títulos de coluna |
names-utf.csv | Arquivo UTF-8 com cabeçalhos de coluna |
nonames-uni.csv | Arquivo Unicode sem títulos de coluna |
nonames-utf8.csv | Arquivo UTF-8 sem títulos de coluna |
O arquivo compactado inteiro foi carregado e, em seguida, o módulo desempacotar conjuntos de arquivos compactados foi executado quatro vezes para extrair cada um dos quatro arquivos, usando estas configurações:
- Conjunto de linhas a ser desempacotado = names-uni.csv, o arquivo tem a linha de cabeçalho = true
- Conjunto de linhas a ser desempacotado = names-utf8.csv, o arquivo tem a linha de cabeçalho = true
- Conjunto de linhas para desempacotar = nonames-uni.csv, o arquivo tem cabeçalho linha = falso
- Conjunto de linhas para desempacotar = nonames-utf8.csv, o arquivo tem cabeçalho linha = falso
Os resultados foram conforme o esperado:
Nome do arquivo | resultado de Upload |
---|---|
names-uni.csv | Erro 0049: erro ao analisar o arquivo. O arquivo não é codificado em Unicode (UTF-8) |
names-utf8.csv | Êxito. Usa nomes de coluna originais do arquivo de origem. |
nonames-uni.csv | Erro 0049: erro ao analisar o arquivo. O arquivo não é codificado em Unicode (UTF-8) |
nonames-utf8.csv | Êxito. Nomes de colunas Col1, Col2,... a colunan é adicionada automaticamente ao conjunto de os. |
Observação
Se você usar a opção, File tem cabeçalho Row = true e o arquivo de origem não tiver um título de coluna, a primeira linha de dados será usada como o título de coluna.
Observações técnicas
Você não pode usar este módulo para desempacotar pacotes R compactados em seu espaço de trabalho. Os pacotes de R devem ser carregados e consumidos como arquivos compactados.
Para obter mais informações sobre como trabalhar com pacotes de R compactados, consulte Executar script r.
Observação
Confuso sobre a diferença entre UTF-8 e Unicode? Consulte este artigo da Wikipédia: o que é UTF-8
Parâmetros do módulo
Nome | Intervalo | Type | Padrão | Descrição |
---|---|---|---|---|
Formato do arquivo de compactação | Zip Gzip |
regra de compactação | Zip | Algoritmo de compactação usado para compactar ou expandir o arquivo. |
Conjunto de um para desempacotar | Qualquer | String | nenhum | nome do conjunto de registros a ser registrado com o ML Studio do Azure (clássico). Se o nome de um conjunto de um DataSet não for especificado, o nome será obtido do nome do arquivo no arquivo compactado. |
Formato de arquivo do conjunto de arquivos | CSV TSV ARFF SVMLIGHT |
Formato de arquivo | CSV | Formato de arquivo do conjunto de entrada no arquivo compactado |
O arquivo tem uma linha de cabeçalho | TRUE/FALSE | Booliano | Falso | Definir como true somente se o arquivo CSV/TSV tiver uma linha de cabeçalho |
Entradas esperadas
Nome | Tipo | Descrição |
---|---|---|
Dataset | Zip | Arquivo compactado contendo conjuntos de os |
Saída
Nome | Tipo | Descrição |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados de saída |