Carregar dados usando COPY INTO com um princípio de serviço

Artigo
01/23/2025

Este artigo descreve como usar o comando COPY INTO para carregar dados de um contêiner do Azure Data Lake Storage Gen2 (ADLS Gen2) em sua conta do Azure em um table no Databricks SQL.

As etapas neste artigo pressupõem que seu administrador configurou um SQL warehouse para usar uma entidade de serviço do Azure Databricks para que você possa acessar seus arquivos de origem no ADLS Gen2. Se o administrador configurou um local externo do Unity Catalog com uma credencial de armazenamento, consulte Carregar dados usando COPY INTO com o Unity Catalogvolumes ou, em alternativa, locais externos. Se o administrador lhe tiver dado um credentials temporário (um token SAS de Blob), siga os passos indicados em Carregar dados utilizando COPY INTO com credentials temporário em vez disso.

O Databricks recomenda o uso do comando COPY INTO para carregamento incremental e em massa de dados com o Databricks SQL.

Nota

COPY INTO Funciona bem para fontes de dados que contêm milhares de arquivos. O Databricks recomenda que você use o Auto Loader para carregar milhões de arquivos, o que não é suportado no Databricks SQL.

Antes de começar

Antes de carregar dados no Azure Databricks, verifique se você tem o seguinte:

Acesso aos dados no ADLS Gen2. O administrador deve primeiro concluir as etapas em Configurar o acesso a dados para ingestão para que seu armazém SQL do Databricks possa ler seus arquivos de origem.
Um armazém SQL Databricks.
A permissão Pode gerenciar no SQL warehouse.
O caminho para seus dados em um contêiner ADLS Gen2.
Familiaridade com a interface de usuário Databricks SQL.

Etapa 1: confirmar o acesso aos dados no armazenamento em nuvem

Para confirmar que você tem acesso aos dados corretos no armazenamento de objetos na nuvem, faça o seguinte:

Na barra lateral, clique em Criar > consulta.
Na barra de menus do editor SQL, select um armazém SQL.
No editor SQL, cole o seguinte código:
```
select * from csv.<path>
```
Substitua <path> pelo caminho do contêiner ADLS Gen2 que você recebeu do administrador. Por exemplo, abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>.
Clique em Executar.

Etapa 2: Criar um table

Esta etapa descreve como criar um table em seu espaço de trabalho do Azure Databricks para armazenar os dados de entrada.

No editor SQL, cole o seguinte código:

CREATE TABLE <catalog_name>.<schema_name>.<table_name> (
  tpep_pickup_datetime  TIMESTAMP,
  tpep_dropoff_datetime TIMESTAMP,
  trip_distance DOUBLE,
  fare_amount DOUBLE,
  pickup_zip INT,
  dropoff_zip INT
);

Clique em Executar.

Etapa 3: Carregar dados do armazenamento em nuvem para o table

Esta etapa descreve como carregar dados de um contêiner ADLS Gen2 no table em seu espaço de trabalho do Azure Databricks.

Na barra lateral, clique em Criar > consulta.
Na barra de menus do editor SQL, select um armazém SQL e certifique-se de que o armazém SQL está em execução.
No editor SQL, cole o código a seguir. Neste código, substitua:
- <container> com o nome do seu contêiner ADLS Gen2 em sua conta de armazenamento.
- <storage-account> com o nome da sua conta de armazenamento ADLS Gen2.
- <folder> com o nome da pasta que contém os seus dados.
- <blob-sas-token> com o valor do token SAS de Blob que você recebeu do administrador.
```
COPY INTO <catalog-name>.<schema-name>.<table-name>
FROM 'abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>'
FILEFORMAT = CSV
FORMAT_OPTIONS (
  'header' = 'true',
  'inferSchema' = 'true'
);

SELECT * FROM <catalog-name>.<schema-name>.<table-name>;
```
Nota

FORMAT_OPTIONS difere por FILEFORMAT. Nesse caso, a opção instrui o header Azure Databricks a tratar a primeira linha do arquivo CSV como um cabeçalho, e as opções instruem o inferSchema Azure Databricks a determinar automaticamente o tipo de dados de cada campo no arquivo CSV.
Clique em Executar.

Nota

Se você clicar em Executar novamente, nenhum novo dado será carregado no table. Isso ocorre porque o comando processa COPY INTO apenas o que considera ser novos dados.

Limpeza

Você pode limpar os recursos associados em seu espaço de trabalho se não quiser mais mantê-los.

Excluir o tables

Na barra lateral, clique em Criar > consulta.
Select um armazém SQL e certifique-se de que o armazém SQL está em execução.

Cole o seguinte código:

DROP TABLE <catalog-name>.<schema-name>.<table-name>;

Clique em Executar.
Passe o cursor sobre a guia desta consulta e clique no ícone X .

Excluir as consultas no editor SQL

Na barra lateral, clique em Editor SQL.
Na barra de menus do editor SQL, passe o mouse sobre a guia para cada consulta criada para este tutorial e clique no ícone X .

Recursos adicionais

O artigo de referência COPY INTO

Partilhar via

Carregar dados usando COPY INTO com um princípio de serviço

Antes de começar

Etapa 1: confirmar o acesso aos dados no armazenamento em nuvem

Etapa 2: Criar um table

Etapa 3: Carregar dados do armazenamento em nuvem para o table

Limpeza

Excluir o tables

Excluir as consultas no editor SQL

Recursos adicionais

Comentários

Recursos adicionais