Exportar para consulta do Hive
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Observação
Aplica-se a: Machine Learning Studio (clássico) somente
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Este artigo descreve como usar a opção Exportar dados para o Hive no módulo Exportar Dados no Machine Learning Studio (clássico). Essa opção é útil quando você está trabalhando com conjuntos de dados muito grandes e deseja salvar seus dados de experimento de aprendizado de máquina em um cluster Hadoop ou armazenamento distribuído hdInsight. Talvez você também queira exportar resultados intermediários ou outros dados para o Hadoop para que possa processá-los usando um MapReduce trabalho.
Como exportar dados para o Hive
Adicione o módulo Exportar Dados ao seu experimento. Você pode encontrar este módulo na categoria Entrada e Saída de Dados no Machine Learning Studio (clássico).
Conexão módulo para o conjuntos de dados que você deseja exportar.
Para Fonte de dados, selecione Consulta do Hive.
Para Nome da tabela do Hive , digite o nome da tabela hive na qual armazenar o conjuntos de dados.
Na caixa de texto URI do servidor HCatalog , digite o nome totalmente qualificado do cluster.
Por exemplo, se você criou um cluster com o nome
mycluster001
, use este formato:https://mycluster001.azurehdinsight.net
Na caixa de texto Nome da conta de usuário do Hadoop, colar na conta de usuário do Hadoop que você usou ao provisionar o cluster.
Na caixa de texto Senha da conta de usuário do Hadoop, digite as credenciais que você usou ao provisionar o cluster.
Para Local dos dados de saída, selecione a opção que indica onde os dados devem ser armazenados: HDFS ou Azure.
Se os dados estão no HDFS (sistema de arquivos distribuído hadoop), eles devem estar acessíveis por meio da mesma conta e senha que você acabou de entrar.
Se os dados estão no Azure, forneça o local e as credenciais da conta de armazenamento.
Se você selecionou a opção HDFS , para o URI do servidor HDFS, especifique o nome do cluster HDInsight sem o
https://
prefixo.Se você selecionou a opção do Azure , forneça o nome da conta de armazenamento e as credenciais que o módulo pode usar para se conectar ao armazenamento.
Nome da conta de armazenamento do Azure: digite o nome da conta do Azure. Por exemplo, se a URL completa da conta de armazenamento for
https://myshared.blob.core.windows.net
, digitemyshared
.Chave de armazenamento do Azure: copie e copie a chave fornecida para acessar a conta de armazenamento.
Nome do contêiner do Azure: especifique o contêiner padrão para o cluster. Para saber mais sobre como descobrir o contêiner padrão, confira a seção Notas técnicas.
Usar resultados armazenados em cache: selecione esta opção se você quiser evitar reescrever a tabela do Hive sempre que executar o experimento. Se não houver nenhuma outra alteração nos parâmetros do módulo, o experimento grava a tabela hive apenas na primeira vez que o módulo é executado ou quando há alterações nos dados.
Se você quiser escrever a tabela do Hive sempre que o experimento for executado, desmarque a opção Usar resultados armazenados em cache .
Execute o experimento.
Exemplos
Para ver exemplos de como usar o módulo Exportar Dados , consulte o Galeria de IA do Azure.
- Processo e tecnologia de análise avançada em ação: usando clusters Hadoop do HDInsight: este artigo fornece um passo a passo detalhado de como criar um cluster, carregar dados e chamar os dados do Studio (clássico) usando o Hive.
Observações técnicas
Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.
Perguntas comuns
Como evitar problemas de memória sem memória ao escrever grandes conjuntos de dados
Às vezes, a configuração padrão do cluster Hadoop é muito limitada para dar suporte à execução do MapReduce trabalho. Por exemplo, nessas Notas de Versão para HDInsight, as configurações padrão são definidas como um cluster de quatro nós.
Se os requisitos do trabalho MapReduce excederem a capacidade disponível, as consultas do Hive poderão retornar uma mensagem de erro De memória inoportuária, o que faz com que a operação Exportar Dados falhe. Se isso acontecer, você poderá alterar a alocação de memória padrão para consultas do Hive.
Como evitar o carregamento dos mesmos dados desnecessariamente
Se você não quiser recriar a tabela hive sempre que executar o experimento, selecione a opção Usar resultados armazenados em cache como TRUE. Quando essa opção for definida como TRUE, o módulo verificará se o experimento foi executado anteriormente e, se uma operação anterior for encontrada, a operação de gravação não será executada.
Dicas de uso
Pode ser difícil descobrir o contêiner padrão para o cluster. Aqui estão algumas dicas:
Se você criou o cluster usando as configurações padrão, um contêiner com o mesmo nome foi criado ao mesmo tempo em que o cluster foi criado. Esse contêiner é o contêiner padrão para o cluster.
Se você criou o cluster usando a opção CUSTOM CREATE , recebeu duas opções para selecionar o contêiner padrão.
Contêiner existente: se você selecionou um contêiner existente, esse contêiner é o contêiner de armazenamento padrão para o cluster.
Criar contêiner padrão: se você selecionou essa opção, um contêiner com o mesmo nome do cluster foi criado e você deve especificar esse nome de contêiner como o contêiner padrão para o cluster.
Parâmetros do módulo
Nome | Intervalo | Type | Padrão | Descrição |
---|---|---|---|---|
Fonte de dados | Lista | Fonte de dados ou sink | Armazenamento do Blobs do Azure | A fonte de dados pode ser HTTP, FTP, HTTPS ou FTPS anônimo, um arquivo no armazenamento de BLOB do Azure, uma tabela do Azure, um banco de dados SQL do Azure, uma tabela de Hive ou um ponto de extremidade OData. |
Nome da tabela Hive | any | Cadeia de caracteres | nenhum | Nome da tabela no Hive |
URI do servidor HCatalog | any | Cadeia de caracteres | nenhum | Ponto de extremidade templeton |
Nome da conta de usuário do Hadoop | any | Cadeia de caracteres | nenhum | Nome de usuário do HDFS/HDInsight do Hadoop |
Senha da conta de usuário do Hadoop | any | SecureString | nenhum | Senha do HDFS/HDInsight do Hadoop |
Local de dados de saída | any | DataLocation | HDFS | Especificar HDFS ou Azure para outputDir |
URI do servidor HDFS | any | String | nenhum | Ponto de extremidade REST do HDFS |
Nome da conta de armazenamento do Azure | any | String | nenhum | Nome da conta de armazenamento do Azure |
Chave de armazenamento do Azure | any | SecureString | nenhum | Chave de armazenamento do Azure |
Nome do contêiner do Azure | any | String | nenhum | Nome do contêiner do Azure |
Usar resultados em cache | TRUE/FALSE | Boolean | FALSE | O módulo só será executado se o cache válido não existir; caso contrário, use dados armazenados em cache da execução anterior. |
Exceções
Exceção | Descrição |
---|---|
Erro 0027 | Uma exceção ocorre quando dois objetos precisam ser do mesmo tamanho, mas eles não são. |
Erro 0003 | Ocorrerá uma exceção se uma ou mais das entradas forem nulas ou estiverem vazias. |
Erro 0029 | Ocorrerá uma exceção quando um URI inválido for passado. |
Erro 0030 | ocorrerá uma exceção quando não for possível baixar um arquivo. |
Erro 0002 | Ocorrerá uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método de destino. |
Erro 0009 | Ocorrerá uma exceção se o nome da conta de armazenamento do Azure ou o nome do contêiner foi especificado incorretamente. |
Erro 0048 | Uma exceção ocorre quando não for possível abrir um arquivo. |
Erro 0046 | Ocorrerá uma exceção quando não for possível criar um diretório no caminho especificado. |
Erro 0049 | Uma exceção ocorre quando não for possível analisar um arquivo. |
para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.
para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.
Confira também
Importar dados
Exportar dados
Exportar para Banco de Dados SQL do Azure
Exportar para o Armazenamento de Blobs do Azure
Exportar para Tabela do Azure