Compartilhar via


Carregar dados usando um local externo do Catálogo do Unity

Importante

Esse recurso está em uma versão prévia.

Este artigo descreve como usar a interface do usuário de adição de dados para criar uma tabela gerenciada a partir de dados no Azure Data Lake Storage Gen2 usando um local externo do Unity Catalog. Um local externo é um objeto que combina um caminho de armazenamento em nuvem com uma credencial de armazenamento que autoriza o acesso ao caminho de armazenamento em nuvem.

Antes de começar

Antes de começar, você deverá ter o seguinte:

Tipos de arquivo

Há suporte para os seguintes tipos de arquivo:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

Etapa 1: Confirmar o acesso ao local externo

Para confirmar o acesso ao local externo, faça o seguinte:

  1. Na barra lateral do seu workspace do Azure Databricks, clique em Catálogo.
  2. No Catalog Explorer, clique em Dados Externos>Locais Externos.

Etapa 2: Criar a tabela gerenciada

Para criar a tabela gerenciada, faça o seguinte:

  1. Na barra lateral do seu workspace, clique em + Novo>Adicionar dados.

  2. Na interface do usuário de adição de dados, clique em Azure Data Lake Storage.

  3. Selecione um local externo na lista suspensa.

  4. Selecione as pastas e os arquivos que você deseja carregar no Azure Databricks e clique em Visualizar tabela.

  5. Selecione um catálogo e um esquema nas listas suspensas.

  6. (Opcional) Edite o nome da tabela.

  7. (Opcional) Para definir opções de formato avançadas por tipo de arquivo, clique em Atributos avançados, desative Detectar automaticamente o tipo de arquivo e selecione um tipo de arquivo.

    Para obter uma lista de opções de formato, consulte a seção a seguir.

  8. (Opcional) Para editar o nome da coluna, clique na caixa de entrada na parte superior dela.

    Os nomes das colunas não dão suporte a vírgulas, barras invertidas nem caracteres Unicode (como emojis).

  9. (Opcional) Para editar tipos de coluna, clique no ícone com o tipo.

  10. Clique em Criar tabela.

Opções de formato de tipo de arquivo

As seguintes opções de formato estão disponíveis, dependendo do tipo de arquivo:

Opção de formato Descrição Tipos de arquivo com suporte
Column delimiter O caractere separador entre colunas. Apenas um caractere é permitido e não há suporte para barra invertida.

O padrão é uma vírgula.
CSV
Escape character O caractere de escape a ser usado ao analisar os dados.

O padrão é uma aspa.
CSV
First row contains the header Essa opção especifica se o arquivo contém um cabeçalho.

Habilitada por padrão.
CSV
Automatically detect file type Detecta automaticamente o tipo de arquivo. O padrão é true. XML
Automatically detect column types Detectar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se for definido como falso, todos os tipos de coluna serão inferidos como STRING.

Habilitada por padrão.
- CSV

- JSON
– XML
Rows span multiple lines Se o valor de uma coluna pode abranger várias linhas no arquivo.

Desabilitado por padrão.
- CSV

- JSON
Merge the schema across multiple files Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo.

Habilitada por padrão.
CSV
Allow comments Se os comentários são permitidos no arquivo.

Habilitada por padrão.
JSON
Allow single quotes Se aspas simples são permitidas no arquivo.

Habilitada por padrão.
JSON
Infer timestamp Se deseja tentar inferir as cadeias de caracteres de carimbo de data/hora como TimestampType.

Habilitada por padrão.
JSON
Rescued data column Se deseja salvar colunas que não correspondem ao esquema. Para obter mais informações, consulte O que é a coluna de dados resgatados.

Habilitada por padrão.
- CSV

- JSON
- Avro
- Parquet
Exclude attribute Se deve excluir os atributos em elementos. O padrão é false. XML
Attribute prefix O prefixo dos atributos para diferenciar atributos e elementos. O padrão é _. XML

Tipos de dados de coluna

Há suporte para os seguintes tipos de dados de coluna. Para obter mais informações sobre tipos de dados individuais, consulte tipos de dados SQL.

Tipo de Dados Descrição
BIGINT Números inteiros com sinal de 8 bytes.
BOOLEAN Valores boolianos (true, false).
DATE e dia, sem um fuso horário.
DECIMAL (P,S) Número com precisão máxima P e escala fixa S.
DOUBLE Números de ponto flutuante de precisão dupla de 8 bytes.
STRING Valores de cadeia de caracteres.
TIMESTAMP Valores que incluem valores de campos de ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão.

Problemas conhecidos

  • Você pode enfrentar problemas com caracteres especiais em tipos de dados complexos, como um objeto JSON com uma chave que contém um acento grave ou dois-pontos.
  • Alguns arquivos JSON podem exigir que você selecione manualmente JSON para o tipo de arquivo. Para selecionar um tipo de arquivo depois de selecionar arquivos, clique em Atributos avançados, desative Detectar automaticamente o tipo de arquivo e selecione JSON.
  • Carimbos de data/hora aninhados e decimais dentro de tipos complexos podem encontrar problemas.