Configurar o acesso a dados para ingestão
Este artigo descreve como os usuários administradores podem configurar o acesso aos dados em um contêiner no Azure Data Lake Storage Gen2 (ADLS Gen2) para que os usuários do Azure Databricks possam carregar dados do ADLS Gen2 em uma tabela no Azure Databricks.
Este artigo descreve as seguintes maneiras de configurar o acesso seguro aos dados de origem:
(Recomendado) Crie um volume do Catálogo Unity.
Crie um local externo do Catálogo Unity com uma credencial de armazenamento.
Inicie um recurso de computação que usa uma entidade de serviço.
Gere credenciais temporárias (um token SAS de Blob).
Antes de começar
Antes de configurar o acesso aos dados no ADLS Gen2, verifique se você tem o seguinte:
Dados em um contêiner em sua conta de armazenamento do Azure. Para criar um contêiner, consulte Criar um contêiner na documentação de armazenamento do Azure.
Para acessar dados usando um volume do Catálogo Unity (recomendado), o
READ VOLUME
privilégio no volume. Para obter mais informações, consulte O que são volumes do Catálogo Unity? e Privilégios e objetos protegíveis do Catálogo Unity.Para acessar dados usando um local externo do Catálogo Unity, o
READ FILES
privilégio no local externo. Para obter mais informações, consulte Criar um local externo para conectar o armazenamento em nuvem ao Azure Databricks.Para acessar dados usando um recurso de computação com uma entidade de serviço, permissões de administrador do espaço de trabalho do Azure Databricks.
Para acessar dados usando credenciais temporárias:
- Permissões de administrador do espaço de trabalho do Azure Databricks.
- Permissões em sua conta do Azure para criar tokens SAS de Blob. Isso permite que você gere credenciais temporárias.
Um armazém SQL Databricks. Para criar um SQL warehouse, consulte Criar um SQL warehouse.
Familiaridade com a interface de usuário Databricks SQL.
Configurar o acesso ao armazenamento em nuvem
Use um dos seguintes métodos para configurar o acesso ao ADLS Gen2:
(Recomendado) Crie um volume do Catálogo Unity. Para obter mais informações, consulte O que são volumes do Catálogo Unity?.
Configure um local externo do Unity Catalog com uma credencial de armazenamento. Para obter mais informações sobre locais externos, consulte Criar um local externo para conectar o armazenamento em nuvem ao Azure Databricks.
Configure um recurso de computação para usar uma entidade de serviço. Para obter mais informações, consulte Configurar uma entidade de serviço.
Gere credenciais temporárias (um token SAS de Blob) para compartilhar com outros usuários do Azure Databricks. Para obter mais informações, consulte Gerar credenciais temporárias para ingestão.
Limpeza
Você pode limpar os recursos associados em sua conta de nuvem e no Azure Databricks se não quiser mais mantê-los.
Excluir a conta de armazenamento ADLS Gen2
- Abra o portal do Azure para sua conta do Azure, normalmente em https://portal.azure.com.
- Procure e abra sua conta de armazenamento.
- Clique em Eliminar.
- Introduza o nome da conta de armazenamento e, em seguida, clique em Eliminar.
Parar o armazém SQL
Se você não estiver usando o SQL warehouse para nenhuma outra tarefa, você deve parar o SQL warehouse para evitar custos adicionais.
- Na persona SQL , na barra lateral, clique em SQL Warehouses.
- Ao lado do nome do SQL warehouse, clique em Parar.
- Quando solicitado, clique em Parar novamente.
Próximos passos
Depois de concluir as etapas neste artigo, os usuários podem executar o COPY INTO
comando para carregar os dados do contêiner ADLS Gen2 em seu espaço de trabalho do Azure Databricks.
Para carregar dados com volumes do Unity Catalog ou locais externos, consulte Carregar dados usando COPY INTO com volumes do Unity Catalog ou locais externos.
Ao carregar dados usando um armazém SQL com uma entidade de serviço, consulte Carregar dados usando COPY INTO com uma entidade de serviço.
Para carregar dados usando credenciais temporárias (um token SAS de Blob), consulte Carregar dados usando COPY INTO com credenciais temporárias.