Registrar dados do Azure Data Lake Storage Gen1 no Catálogo de Dados do Azure
Neste artigo, você aprenderá como integrar o Azure Data Lake Storage Gen1 com Catálogo de Dados do Azure para tornar os dados detectáveis em uma organização, integrando-os ao Catálogo de Dados. Para obter mais informações sobre a catalogação de dados, consulte Catálogo de Dados do Azure. Para compreender os cenários em que você pode usar o Catálogo de Dados, consulte Cenários comuns do Catálogo de Dados do Azure.
Pré-requisitos
Antes de começar este tutorial, você deve ter o seguinte:
Uma assinatura do Azure. Consulte Obter a avaliação gratuita do Azure.
Habilitar sua assinatura do Azure para Data Lake Storage Gen1. Veja instruções.
Uma conta do Data Lake Storage Gen1. Siga as instruções em Introdução ao Azure Data Lake Storage Gen1 usando o portal do Azure. Para este tutorial, criaremos uma conta do Data Lake Storage Gen1 chamada datacatalogstore.
Depois de criar a conta, carregue um conjunto de dados de exemplo para ela. Para este tutorial, vamos carregar todos os arquivos .csv para na pasta AmbulanceData para o Repositório Git do Azure Data Lake. Você pode usar vários clientes, como o Gerenciador de Armazenamento do Azure, para carregar dados em um contêiner de blob.
Catálogo de Dados do Azure. Sua organização já deve ter um Catálogo de Dados do Azure criados para sua organização. É permitido somente um catálogo para cada organização.
Registrar o Data Lake Storage Gen1 como uma fonte para o Catálogo de Dados
Vá para
https://azure.microsoft.com/services/data-catalog
e clique em Introdução.Faça logon no portal do Catálogo de Dados do Azure e clique em Publicar dados.
Na página seguinte, clique em Iniciar Aplicativo. Isso baixará o arquivo de manifesto do aplicativo no seu computador. Clique duas vezes no arquivo de manifesto para iniciar o aplicativo.
Na página de Boas-vindas, clique em Entrare insira suas credenciais.
Na página Selecionar uma Fonte de Dados, selecione Azure Data Lake Storee, em seguida, clique em Avançar.
Na próxima página, forneça o nome da conta do Data Lake Storage Gen1 que você quer registrar no Catálogo de Dados. Deixe as outras opções como padrão e clique em Conectar.
A próxima página pode ser dividida nos seguintes segmentos.
a. A caixa Hierarquia do Servidor representa a estrutura da pasta da conta do Data Lake Storage Gen1. $Root representa a raiz da conta do Data Lake Storage Gen1 e AmbulanceData representa a pasta criada na raiz da conta do Data Lake Storage Gen1.
b. A caixa Objetos disponíveis lista os arquivos e pastas na pasta AmbulanceData.
c. A caixa Objetos a serem registrados lista os arquivos e pastas que você deseja registrar no Catálogo de Dados do Azure.
Para este tutorial, você deve registrar todos os arquivos no diretório. Para fazer isso, clique no botão () para mover todos os arquivos para a caixa Objetos a serem registrados.
Como os dados serão registrados em um catálogo de dados de toda a organização, a abordagem recomendada é adicionar alguns metadados que você possa usar posteriormente para localizar rapidamente os dados. Por exemplo, você pode adicionar um endereço de email para o proprietário dos dados (por exemplo, que está carregando os dados) ou adicionar uma marca para identificar os dados. A captura de tela abaixo mostra uma marcação que você adicionou aos dados.
Clique em Registrar.
A captura de tela a seguir indica que os dados foram registrados com êxito no Catálogo de Dados.
Clique em Exibir Portal para voltar ao portal do Catálogo de Dados e verificar se agora você pode acessar os dados registrados no portal. Para pesquisar os dados, você pode usar a marca que usada ao registrar os dados.
Agora você pode executar operações como adicionar anotações e documentação aos dados. Para obter mais informações, consulte os links a seguir.