Trabalhar com tabelas externas
As tabelas externas armazenam dados em um diretório no armazenamento de objetos na nuvem em seu locatário de nuvem. Você deve especificar um local de armazenamento ao definir uma tabela externa.
O Databricks recomenda o uso de tabelas externas somente quando você precisar de acesso direto aos dados sem usar computação no Azure Databricks. Os privilégios do Catálogo Unity não são impostos quando os usuários acessam arquivos de dados de sistemas externos.
Nota
Este artigo se concentra nas tabelas externas do Unity Catalog. As tabelas externas no metastore herdado do Hive têm comportamentos diferentes. Consulte Objetos de banco de dados no metastore herdado do Hive.
Trabalhar com tabelas externas
O Azure Databricks gerencia apenas os metadados para tabelas externas e não usa o local de armazenamento de gerenciamento associado ao esquema que contém. O registro da tabela no Unity Catalog é apenas um ponteiro para arquivos de dados. Quando você solta uma tabela externa, os arquivos de dados não são excluídos.
Ao criar uma tabela externa, você pode registrar um diretório existente de arquivos de dados como uma tabela ou fornecer um caminho para criar novos arquivos de dados.
As tabelas externas podem usar os seguintes formatos de arquivo:
- DELTA
- CSV
- JSON
- AVRO
- PARQUET
- ORC
- TEXTO
Criar uma tabela externa
Para criar uma tabela externa, pode usar comandos SQL ou operações de gravação Dataframe.
Antes de começar
Para criar uma tabela externa, você deve atender aos seguintes requisitos de permissão:
- O
CREATE EXTERNAL TABLE
privilégio em um local externo que concede acesso aoLOCATION
acessado pela tabela externa. - A
USE SCHEMA
permissão no esquema pai da tabela. - A
USE CATALOG
permissão no catálogo pai da tabela. - A
CREATE TABLE
permissão no esquema pai da tabela.
Para obter mais informações sobre como configurar locais externos, consulte Criar um local externo para conectar o armazenamento em nuvem ao Azure Databricks.
Exemplos de comandos SQL
Use um dos seguintes exemplos de comando em um bloco de anotações ou no editor de consultas SQL para criar uma tabela externa.
Nos exemplos a seguir, substitua os valores de espaço reservado:
-
<catalog>
: O nome do catálogo que conterá a tabela. -
<schema>
: O nome do esquema que conterá a tabela. -
<table-name>
: Um nome para a tabela. -
<column-specification>
: O nome e o tipo de dados para cada coluna. -
<bucket-path>
: O caminho para o bucket de armazenamento em nuvem onde a tabela será criada. -
<table-directory>
: Um diretório onde a tabela será criada. Use um diretório exclusivo para cada tabela.
CREATE TABLE <catalog>.<schema>.<table-name>
(
<column-specification>
)
LOCATION 'abfss://<bucket-path>/<table-directory>';
Para obter mais informações sobre parâmetros de criação de tabela, consulte CREATE TABLE.
Operações de gravação de dataframe
Muitos usuários criam tabelas externas a partir de resultados de consulta ou operações de gravação DataFrame. Os artigos a seguir demonstram alguns dos muitos padrões que você pode usar para criar uma tabela externa no Azure Databricks:
Soltar uma mesa externa
Para eliminar uma tabela, deve ser o seu proprietário ou ter o privilégio MANAGE
nessa tabela. Para soltar uma tabela externa, execute o seguinte comando SQL:
DROP TABLE IF EXISTS catalog_name.schema_name.table_name;
O Unity Catalog não exclui os dados subjacentes no armazenamento em nuvem quando você solta uma tabela externa. Você deve excluir diretamente os arquivos de dados subjacentes se precisar remover os dados associados à tabela.
Exemplo de bloco de anotações: Criar tabelas externas
Você pode usar o bloco de anotações de exemplo a seguir para criar um catálogo, esquema e tabela externa e para gerenciar permissões neles.