Criar ou modificar uma tabela usando o upload de arquivo
A página Criar ou modificar uma tabela usando upload de arquivo permite que você carregue arquivos CSV, TSV ou JSON, Avro, Parquet ou texto para criar ou substituir uma tabela Delta Lake gerenciada.
Você pode criar tabelas Delta gerenciadas no Unity Catalog ou no metastore do Hive.
Nota
Além disso, você pode usar usar o ou COPY INTO adicionar dados da interface do usuário para carregar arquivos do armazenamento em nuvem.
Importante
- Você deve ter acesso a um recurso de computação em execução e permissões para criar tabelas em um esquema de destino.
- Os administradores do espaço de trabalho podem desativar a página Criar ou modificar uma tabela usando o carregamento de arquivos.
Você pode usar a interface do usuário para criar uma tabela Delta importando pequenos arquivos CSV, TSV, JSON, Avro, Parquet ou de texto de sua máquina local.
- A página Criar ou modificar uma tabela usando o upload de arquivos suporta o upload de até 10 arquivos de cada vez.
- O tamanho total dos ficheiros carregados tem de ser inferior a 2 gigabytes.
- O arquivo deve ser um arquivo CSV, TSV, JSON, Avro, Parquet ou texto e ter a extensão ".csv", ".tsv" (ou ".tab"), ".json", ".avro", ".parquet" ou ".txt".
- Arquivos compactados, como
zip
etar
arquivos, não são suportados.
Carregue o ficheiro
- Clique em Novo > Adicionar dados.
- Clique em Criar ou modificar uma tabela.
- Clique no botão do navegador de arquivos ou arraste e solte arquivos diretamente na zona de soltar.
Nota
Os ficheiros importados são carregados para um local interno seguro dentro da sua conta, que é o lixo recolhido diariamente.
Pré-visualizar, configurar e criar uma tabela
Você pode carregar dados para a área de preparo sem se conectar a recursos de computação, mas deve selecionar um recurso de computação ativo para visualizar e configurar sua tabela.
Você pode visualizar 50 linhas de seus dados ao configurar as opções para a tabela carregada. Clique nos botões de grade ou lista abaixo do nome do arquivo para alternar a apresentação de seus dados.
O Azure Databricks armazena arquivos de dados para tabelas gerenciadas nos locais configurados para o esquema que contém. Você precisa de permissões adequadas para criar uma tabela em um esquema.
Selecione o esquema desejado no qual criar uma tabela fazendo o seguinte:
- (Somente para espaços de trabalho habilitados para Unity Catalog) Você pode selecionar um catálogo ou o legado
hive_metastore
. - Selecione um esquema.
- (Opcional) Edite o nome da tabela.
Nota
Você pode usar a lista suspensa para selecionar Substituir tabela existente ou Criar nova tabela. As operações que tentam criar novas tabelas com conflitos de nome exibem uma mensagem de erro.
Você pode configurar opções ou colunas antes de criar a tabela.
Para criar a tabela, clique em Criar na parte inferior da página.
Opções de formato
As opções de formato dependem do formato de ficheiro carregado. As opções de formato comuns aparecem na barra de cabeçalho, enquanto as opções menos usadas estão disponíveis na caixa de diálogo Atributos avançados .
- Para CSV, as seguintes opções estão disponíveis:
- A primeira linha contém o cabeçalho (ativado por padrão): esta opção especifica se o arquivo CSV/TSV contém um cabeçalho.
- Delimitador de coluna: O caractere separador entre colunas. Apenas um único caractere é permitido, e a barra invertida não é suportada. O padrão é vírgula para arquivos CSV.
-
Detetar automaticamente tipos de coluna (ativado por padrão): detetar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como
STRING
. - As linhas abrangem várias linhas (desabilitadas por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
- Mesclar o esquema em vários arquivos: se deseja inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Se desativado, o esquema de um arquivo é usado.
- Para JSON, as seguintes opções estão disponíveis:
-
Detetar automaticamente tipos de coluna (ativado por padrão): detetar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como
STRING
. - As linhas abrangem várias linhas (habilitadas por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
- Permitir comentários (ativado por padrão): se os comentários são permitidos no arquivo.
- Permitir aspas simples (habilitado por padrão): se aspas únicas são permitidas no arquivo.
-
Inferir carimbo de data/hora (habilitado por padrão): se deve tentar inferir cadeias de caracteres de carimbo de data/hora como
TimestampType
.
-
Detetar automaticamente tipos de coluna (ativado por padrão): detetar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como
- Para JSON, as seguintes opções estão disponíveis:
-
Detetar automaticamente tipos de coluna (ativado por padrão): detetar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como
STRING
. - As linhas abrangem várias linhas (desabilitadas por padrão): se o valor de uma coluna pode abranger várias linhas no arquivo.
- Permitir comentários Se os comentários são permitidos no arquivo.
- Permitir aspas simples: se aspas simples são permitidas no arquivo.
-
Inferir carimbo de data/hora: se deve tentar inferir cadeias de caracteres de carimbo de data/hora como
TimestampType
.
-
Detetar automaticamente tipos de coluna (ativado por padrão): detetar automaticamente tipos de coluna a partir do conteúdo do arquivo. Você pode editar tipos na tabela de visualização. Se isso for definido como false, todos os tipos de coluna serão inferidos como
A visualização de dados é atualizada automaticamente quando você edita as opções de formato.
Nota
Quando carrega vários ficheiros, aplicam-se as seguintes regras:
- As configurações de cabeçalho se aplicam a todos os arquivos. Certifique-se de que os cabeçalhos estão consistentemente ausentes ou presentes em todos os arquivos carregados para evitar a perda de dados.
- Os arquivos carregados são combinados anexando todos os dados como linhas na tabela de destino. Não há suporte para a junção ou mesclagem de registros durante o upload de arquivos.
Nomes e tipos de colunas
Você pode editar nomes e tipos de coluna.
Para editar tipos, clique no ícone com o tipo.
Nota
Não é possível editar tipos aninhados para
STRUCT
ouARRAY
.Para editar o nome da coluna, clique na caixa de entrada na parte superior da coluna.
Os nomes das colunas não suportam vírgulas, barras invertidas ou caracteres unicode (como emojis).
Os tipos de dados de coluna são inferidos por padrão para arquivos CSV e JSON. Você pode interpretar todas as colunas como STRING
tipo desativando Atributos> de coluna.
Nota
- A inferência de esquema faz um melhor esforço de deteção de tipos de coluna. A alteração dos tipos de coluna pode levar a que alguns valores sejam convertidos se
NULL
o valor não puder ser convertido corretamente para o tipo de dados de destino. Não há suporte paraBIGINT
transmissão emDATE
ouTIMESTAMP
colunas. O Databricks recomenda que você crie uma tabela primeiro e, em seguida, transforme essas colunas usando funções SQL depois. - Para dar suporte a nomes de colunas de tabela com caracteres especiais, a página Criar ou modificar uma tabela usando o carregamento de arquivo aproveita o Mapeamento de Coluna.
- Para adicionar comentários a colunas, crie a tabela e navegue até o Gerenciador de Catálogos , onde você pode adicionar comentários.
Tipos de dados suportados
A página Criar ou modificar uma tabela usando o carregamento de arquivo suporta os seguintes tipos de dados. Para obter mais informações sobre tipos de dados individuais, consulte Tipos de dados SQL.
Tipo de Dados | Description |
---|---|
BIGINT |
Números inteiros assinados de 8 bytes. |
BOOLEAN |
Valores booleanos (true , false ). |
DATE |
Valores que compreendem valores de campos ano, mês e dia, sem fuso horário. |
DOUBLE |
Números de ponto flutuante de precisão dupla de 8 bytes. |
STRING |
Valores de cadeia de caracteres. |
TIMESTAMP |
Valores que compreendem valores de campos ano, mês, dia, hora, minuto e segundo, com o fuso horário local da sessão. |
STRUCT |
Valores com a estrutura descrita por uma sequência de campos. |
ARRAY |
Valores que compreendem uma sequência de elementos com o tipoelementType . |
DECIMAL(P,S) |
Números com a máxima precisão P e escala S fixa. |
Problemas conhecidos
A transmissão BIGINT
para tipos não passíveis de transmissão, como DATE
, como datas no formato de aaaa, pode desencadear erros.