Partilhar via


Importar dados para o designer do Azure Machine Learning

Neste artigo, você aprenderá a importar seus próprios dados no designer para criar soluções personalizadas. Há duas maneiras de importar dados para o designer:

  • Conjuntos de dados do Azure Machine Learning - Registre conjuntos de dados no Azure Machine Learning para habilitar recursos avançados que ajudam você a gerenciar seus dados.
  • Componente Importar Dados - Use o componente Importar Dados para acessar diretamente dados de fontes de dados online.

Importante

Se você não vir elementos gráficos mencionados neste documento, como botões no estúdio ou designer, talvez não tenha o nível correto de permissões para o espaço de trabalho. Entre em contato com o administrador da assinatura do Azure para verificar se você recebeu o nível correto de acesso. Para obter mais informações, veja Gerir utilizadores e funções.

Usar conjuntos de dados do Azure Machine Learning

Recomendamos que você use conjuntos de dados para importar dados para o designer. Ao registrar um conjunto de dados, você pode aproveitar ao máximo os recursos avançados de dados, como controle de versão e rastreamento e monitoramento de dados.

Registrar um conjunto de dados

Você pode registrar conjuntos de dados existentes programaticamente com o SDK ou visualmente no estúdio de Aprendizado de Máquina do Azure.

Você também pode registrar a saída para qualquer componente de designer como um conjunto de dados.

  1. Selecione o componente que gera os dados que você deseja registrar.

  2. No painel de propriedades, selecione Saídas + logs>Registrar conjunto de dados.

    Captura de ecrã a mostrar como navegar para a opção Registar Conjunto de Dados

Se os dados de saída do componente estiverem em um formato tabular, você deverá optar por registrar a saída como um conjunto de dados de arquivo ou conjunto de dados tabular.

  • O conjunto de dados de arquivo registra a pasta de saída do componente como um conjunto de dados de arquivo. A pasta de saída contém um arquivo de dados e metaarquivos que o designer usa internamente. Selecione esta opção se quiser continuar a usar o conjunto de dados registrado no designer.

  • O conjunto de dados tabular registra apenas o arquivo de dados de saída do componente como um conjunto de dados tabular. Este formato é facilmente consumido por outras ferramentas, por exemplo, no Automated Machine Learning ou no Python SDK. Selecione essa opção se você planeja usar o conjunto de dados registrado fora do designer.

Usar um conjunto de dados

Seus conjuntos de dados registrados podem ser encontrados na paleta de componentes, em Conjuntos de dados. Para usar um conjunto de dados, arraste-o e solte-o na tela do pipeline. Em seguida, conecte a porta de saída do conjunto de dados a outros componentes na tela.

Se você registrar um conjunto de dados de arquivo, o tipo de porta de saída do conjunto de dados será AnyDirectory. Se você registrar um conjunto de dados tabular, o tipo de porta de saída do conjunto de dados se DataFrameDirectory. Observe que, se você conectar a porta de saída do conjunto de dados a outros componentes no designer, o tipo de porta dos conjuntos de dados e componentes precisará ser alinhado.

Captura de tela mostrando o local dos conjuntos de dados salvos na paleta do designer

Nota

O designer oferece suporte ao controle de versão do conjunto de dados. Especifique a versão do conjunto de dados no painel de propriedades do componente do conjunto de dados.

Limitações

  • Atualmente, você só pode visualizar o conjunto de dados tabulares no designer. Se você registrar um conjunto de dados de arquivo fora do designer, não poderá visualizá-lo na tela do designer.
  • Atualmente, o designer dá suporte apenas às saídas de visualização que são armazenadas no armazenamento de blobs do Azure. Pode verificar e alterar o arquivo de dados de saída nas Definições de saída no separador Parâmetros, no painel direito do componente.
  • Se seus dados estiverem armazenados em rede virtual (VNet) e você quiser visualizar, será necessário habilitar a identidade gerenciada do espaço de trabalho do armazenamento de dados.
    1. Vá para o armazenamento de dados relacionado e clique em Atualizar autenticaçãoAtualizar Credenciais
    2. Selecione Sim para habilitar a identidade gerenciada do espaço de trabalho. Habilitar identidade gerenciada do espaço de trabalho

Importar dados usando o componente Importar dados

Embora seja recomendável usar conjuntos de dados para importar dados, você também pode usar o componente Importar dados . O componente Importar Dados ignora o registro de seu conjunto de dados no Aprendizado de Máquina do Azure e importa dados diretamente de um armazenamento de dados ou URL HTTP.

Para obter informações detalhadas sobre como usar o componente Importar dados, consulte a página Referência de importação de dados.

Nota

Se o conjunto de dados tiver muitas colunas, você poderá encontrar o seguinte erro: "Falha na validação devido à limitação de tamanho". Para evitar isso, registre o conjunto de dados na interface Datasets.

Origens suportadas

Esta seção lista as fontes de dados suportadas pelo designer. Os dados entram no designer de um armazenamento de dados ou de um conjunto de dados tabular.

Fontes de armazenamento de dados

Para obter uma lista de fontes de armazenamento de dados com suporte, consulte Acessar dados nos serviços de armazenamento do Azure.

Fontes de conjuntos de dados tabulares

O estruturador suporta conjuntos de dados tabulares criados a partir das seguintes origens:

  • Ficheiros delimitados
  • Ficheiros JSON
  • Ficheiros Parquet
  • Consultas SQL

Tipos de dados

O estruturador reconhece internamente os seguintes tipos de dados:

  • String
  • Número inteiro
  • Decimal
  • Booleano
  • Date

O estruturador utiliza um tipo de dados interno para transmitir dados entre componentes. Pode converter explicitamente os seus dados em formato de tabela de dados com o componente Converter em Conjunto de Dados . Qualquer componente que aceite formatos diferentes do formato interno irá converter os dados automaticamente antes de os transmitir para o componente seguinte.

Restrições de dados

Os módulos no designer são limitados pelo tamanho do destino de computação. Para conjuntos de dados maiores, você deve usar um recurso de computação maior do Azure Machine Learning. Para obter mais informações sobre a computação do Azure Machine Learning, consulte O que são destinos de computação no Azure Machine Learning?

Aceder a dados numa rede virtual

Se seu espaço de trabalho estiver em uma rede virtual, você deverá executar etapas de configuração adicionais para visualizar dados no designer. Para obter mais informações sobre como usar armazenamentos de dados e conjuntos de dados em uma rede virtual, consulte Usar o estúdio do Azure Machine Learning em uma rede virtual do Azure.

Próximos passos

Aprenda os fundamentos do designer com este Tutorial: Preveja o preço do automóvel com o designer.