Transformar arquivos de dados com a instrução CREATE EXTERNAL TABLE AS SELECT

Concluído

A linguagem do SQL inclui muitos recursos e funções que permitem manipular dados. Por exemplo, você pode usar o SQL para:

  • Filtrar linhas e colunas em um conjunto de dados.
  • Renomear campos de dados e converter entre tipos de dados.
  • Calcular campos de dados derivados.
  • Manipular valores de cadeia de caracteres.
  • Agrupar e agregar dados.

Os pools de SQL sem servidor do Azure Synapse podem ser usados para executar instruções SQL que transformam dados e persistem os resultados como um arquivo em um data lake para processamento ou consulta adicional. Se você já conhece a sintaxe do Transact-SQL, pode criar uma instrução SELECT que aplique a transformação específica na qual você tem interesse, e armazenar os resultados da instrução SELECT em um formato de arquivo selecionado com um esquema de tabela de metadados que pode ser consultado usando o SQL.

Você pode usar uma instrução CETAS (CREATE EXTERNAL TABLE AS SELECT) em um pool de SQL dedicado ou um pool de SQL sem servidor para manter os resultados de uma consulta em uma tabela externa, que armazena os dados em um arquivo no data lake.

A instrução CETAS inclui uma instrução SELECT que consulta e manipula dados de qualquer fonte de dados válida (que pode ser uma tabela ou exibição existente em um banco de dados ou uma função OPENROWSET que lê dados baseados em arquivo do data lake). Os resultados da instrução SELECT são então persistidos em uma tabela externa, que é um objeto de metadados em um banco de dados que fornece uma abstração relacional sobre os dados armazenados em arquivos. O diagrama a seguir ilustra o conceito visualmente:

Um diagrama mostrando uma instrução CREATE EXTERNAL TABLE AS SELECT salvando os resultados da consulta como um arquivo.

Ao aplicar essa técnica, você pode usar o SQL para extrair e transformar dados de arquivos ou tabelas e armazenar os resultados transformados para processamento ou análise downstream. As operações subsequentes nos dados transformados podem ser executadas na tabela relacional no banco de dados do pool de SQL ou diretamente nos arquivos de dados subjacentes.

Criando objetos de banco de dados externos para dar suporte a CETAS

Para usar expressões CETAS, você deve criar os seguintes tipos de objeto em um banco de dados para um pool de SQL dedicado ou sem servidor. Ao usar um pool de SQL sem servidor, crie esses objetos em um banco de dados personalizado (criado usando a instrução CREATE DATABASE), não no banco de dados interno.

Fonte de dados externa

Uma fonte de dados externa encapsula uma conexão com um local do sistema de arquivos em um data lake. Você pode então usar essa conexão para especificar um caminho relativo no qual os arquivos de dados para a tabela externa criada pela instrução CETAS são salvos.

Se os dados de origem da instrução CETAS estiverem em arquivos no mesmo caminho do data lake, você poderá usar a mesma fonte de dados externa na função OPENROWSET usada para consultá-los. Como alternativa, você pode criar uma fonte de dados externa separada para os arquivos de origem ou usar um caminho de arquivo totalmente qualificado na função OPENROWSET.

Para criar uma fonte de dados externa, use a instrução CREATE EXTERNAL DATA SOURCE, conforme mostrado neste exemplo:

-- Create an external data source for the Azure storage account
CREATE EXTERNAL DATA SOURCE files
WITH (
    LOCATION = 'https://mydatalake.blob.core.windows.net/data/files/',
    TYPE = HADOOP, -- For dedicated SQL pool
    -- TYPE = BLOB_STORAGE, -- For serverless SQL pool
    CREDENTIAL = storageCred
);

O exemplo anterior pressupõe que os usuários que executam consultas que usam a fonte de dados externa terão permissões suficientes para acessar os arquivos. Uma abordagem alternativa é encapsular uma credencial na fonte de dados externa para que ela possa ser usada para acessar dados de arquivo sem conceder a todos os usuários permissões para lê-la diretamente:

CREATE DATABASE SCOPED CREDENTIAL storagekeycred
WITH
    IDENTITY='SHARED ACCESS SIGNATURE',  
    SECRET = 'sv=xxx...';

CREATE EXTERNAL DATA SOURCE secureFiles
WITH (
    LOCATION = 'https://mydatalake.blob.core.windows.net/data/secureFiles/'
    CREDENTIAL = storagekeycred
);

Dica

Além da autenticação SAS, você pode definir credenciais que usam a identidade gerenciada (a identidade do Microsoft Entra usada pelo workspace do Azure Synapse), uma entidade de segurança específica do Microsoft Entra ou a autenticação de passagem com base na identidade do usuário que executa a consulta (que é o tipo padrão de autenticação). Para saber mais sobre como usar credenciais em um pool de SQL sem servidor, confira o artigo Controlar o acesso da conta de armazenamento para o pool de SQL sem servidor no Azure Synapse Analytics, na documentação do Azure Synapse Analytics.

Formato de arquivo externo

A instrução CETAS cria uma tabela com os dados armazenados em arquivos. Você deve especificar o formato dos arquivos que deseja criar como um formato de arquivo externo.

Para criar um formato de arquivo externo, use a instrução CREATE EXTERNAL FILE FORMAT, conforme mostrado neste exemplo:

CREATE EXTERNAL FILE FORMAT ParquetFormat
WITH (
        FORMAT_TYPE = PARQUET,
        DATA_COMPRESSION = 'org.apache.hadoop.io.compress.SnappyCodec'
    );

Dica

Neste exemplo, os arquivos serão salvos no formato Parquet. Você também pode criar formatos de arquivo externos para outros tipos de arquivo. Consulte CREATE EXTERNAL FILE FORMAT (Transact-SQL) para obter detalhes.

Usando a instrução CETAS

Depois de criar uma fonte de dados externa e um formato de arquivo externo, você pode usar a instrução CETAS para transformar dados e armazenar os resultados em uma tabela externa.

Por exemplo, suponha que os dados de origem que você deseja transformar consistem em pedidos de vendas em arquivos de texto delimitados por vírgula que são armazenados em uma pasta em um data lake. Você deseja filtrar os dados para incluir somente pedidos marcados como "ordem especial" e salvar os dados transformados como arquivos Parquet em uma pasta diferente no mesmo data lake. Você pode usar a mesma fonte de dados externa para as pastas de origem e de destino, conforme mostrado neste exemplo:

CREATE EXTERNAL TABLE SpecialOrders
    WITH (
        -- details for storing results
        LOCATION = 'special_orders/',
        DATA_SOURCE = files,
        FILE_FORMAT = ParquetFormat
    )
AS
SELECT OrderID, CustomerName, OrderTotal
FROM
    OPENROWSET(
        -- details for reading source files
        BULK 'sales_orders/*.csv',
        DATA_SOURCE = 'files',
        FORMAT = 'CSV',
        PARSER_VERSION = '2.0',
        HEADER_ROW = TRUE
    ) AS source_data
WHERE OrderType = 'Special Order';

Os parâmetros LOCATION e BULK no exemplo anterior são caminhos relativos para os resultados e arquivos de origem, respectivamente. Os caminhos são relativos ao local do sistema de arquivos referenciado pela fonte de dados externa dos arquivos.

Um ponto importante a entender é que você deve usar uma fonte de dados externa para especificar o local em que os dados transformados para a tabela externa devem ser salvos. Quando os dados de origem baseados em arquivo são armazenados na mesma hierarquia de pastas, você pode usar a mesma fonte de dados externa. Caso contrário, você pode usar uma segunda fonte de dados para definir uma conexão com os dados de origem ou usar o caminho totalmente qualificado, conforme mostrado neste exemplo:

CREATE EXTERNAL TABLE SpecialOrders
    WITH (
        -- details for storing results
        LOCATION = 'special_orders/',
        DATA_SOURCE = files,
        FILE_FORMAT = ParquetFormat
    )
AS
SELECT OrderID, CustomerName, OrderTotal
FROM
    OPENROWSET(
        -- details for reading source files
        BULK 'https://mystorage.blob.core.windows.net/data/sales_orders/*.csv',
        FORMAT = 'CSV',
        PARSER_VERSION = '2.0',
        HEADER_ROW = TRUE
    ) AS source_data
WHERE OrderType = 'Special Order';

Removendo tabelas externas

Se você não precisar mais da tabela externa que contém os dados transformados, poderá removê-las do banco de dados usando a instrução DROP EXTERNAL TABLE, conforme mostrado aqui:

DROP EXTERNAL TABLE SpecialOrders;

No entanto, é importante entender que as tabelas externas são uma abstração de metadados sobre os arquivos que contêm os dados reais. Remover uma tabela externa não excluirá os dados subjacentes.