Registar dados do Azure Data Lake Storage Gen1 no Azure Catálogo de Dados
Neste artigo, irá aprender a integrar o Azure Data Lake Storage Gen1 com o Azure Catálogo de Dados para tornar os seus dados detetáveis numa organização ao integrá-los com Catálogo de Dados. Para obter mais informações sobre a catalogação de dados, veja Azure Catálogo de Dados. Para compreender os cenários em que pode utilizar Catálogo de Dados, veja Cenários comuns do Azure Catálogo de Dados.
Pré-requisitos
Antes de começar este tutorial, tem de ter o seguinte:
Uma subscrição do Azure. Consulte Obter versão de avaliação gratuita do Azure.
Ative a sua subscrição do Azure para Data Lake Storage Gen1. Veja as instruções.
Uma conta Data Lake Storage Gen1. Siga as instruções em Introdução ao Azure Data Lake Storage Gen1 com o portal do Azure. Neste tutorial, crie uma conta Data Lake Storage Gen1 denominada datacatalogstore.
Depois de criar a conta, carregue um conjunto de dados de exemplo para a mesma. Neste tutorial, vamos carregar todos os ficheiros .csv na pasta AmbulanceData no Repositório Git do Azure Data Lake. Pode utilizar vários clientes, como Explorador de Armazenamento do Azure, para carregar dados para um contentor de blobs.
Azure Catálogo de Dados. A sua organização já tem de ter um Azure Catálogo de Dados criado para a sua organização. Só é permitido um catálogo para cada organização.
Registar Data Lake Storage Gen1 como origem para Catálogo de Dados
Aceda a
https://azure.microsoft.com/services/data-catalog
e clique em Começar.Inicie sessão no portal do Catálogo de Dados do Azure e clique em Publicar dados.
Na página seguinte, clique em Iniciar Aplicação. Esta ação irá transferir o ficheiro de manifesto da aplicação no seu computador. Faça duplo clique no ficheiro de manifesto para iniciar a aplicação.
Na página de Boas-vindas, clique em Iniciar sessão e introduza as suas credenciais.
Na página Selecionar uma Origem de Dados, selecione Azure Data Lake Store e, em seguida, clique em Seguinte.
Na página seguinte, indique o nome da conta Data Lake Storage Gen1 que pretende registar no Catálogo de Dados. Deixe as outras opções como predefinição e, em seguida, clique em Ligar.
A página seguinte pode ser dividida nos seguintes segmentos.
a. A caixa Hierarquia do Servidor representa a estrutura da pasta Data Lake Storage Gen1 conta. $Root representa a raiz da conta Data Lake Storage Gen1 e AmbulanceData representa a pasta criada na raiz da conta Data Lake Storage Gen1.
b. A caixa Objetos disponíveis lista os ficheiros e pastas na pasta AmbulanceData .
c. A caixa Objetos a registar lista os ficheiros e pastas que pretende registar no Azure Catálogo de Dados.
Neste tutorial, deve registar todos os ficheiros no diretório. Para tal, clique no botão () para mover todos os ficheiros para a caixa Objetos a registar .
Uma vez que os dados serão registados num catálogo de dados em toda a organização, é recomendada uma abordagem para adicionar alguns metadados que pode utilizar mais tarde para localizar rapidamente os dados. Por exemplo, pode adicionar um endereço de e-mail para o proprietário dos dados (por exemplo, um que está a carregar os dados) ou adicionar uma etiqueta para identificar os dados. A captura de ecrã abaixo mostra uma etiqueta que adiciona aos dados.
Clique em Registar.
A captura de ecrã seguinte indica que os dados são registados com êxito no Catálogo de Dados.
Clique em Ver Portal para voltar ao portal do Catálogo de Dados e verificar se agora pode aceder aos dados registados a partir do portal. Para procurar os dados, pode utilizar a etiqueta que utilizou ao registar os dados.
Agora pode realizar operações como adicionar anotações e documentação aos dados. Para obter mais informações, veja as seguintes ligações.