Partilhar via


Nota de lançamento do Unity Catalog GA

Importante

Esta documentação foi desativada e pode não ser atualizada. Os produtos, serviços ou tecnologias mencionados neste conteúdo não são mais suportados. Veja O que é o Unity Catalog?.

25 de agosto de 2022

O Catálogo Unity agora está disponível em geral no Azure Databricks.

Este artigo descreve o Catálogo Unity a partir da data de seu lançamento no GA. Ele se concentra principalmente nos recursos e atualizações adicionados ao Catálogo Unity desde a Visualização Pública. Para obter informações atuais sobre o Unity Catalog, consulte O que é o Unity Catalog?. Para obter notas de versão que descrevem atualizações para o Catálogo Unity desde o GA, consulte Notas de versão da plataforma Azure Databricks e Versões e compatibilidade das notas de versão do Databricks Runtime.

Limites de metastore e cotas de recursos

A partir de 25 de agosto de 2022

  • Sua conta do Azure Databricks pode ter apenas um metastore por região
  • Uma metastore pode ter até 1000 catálogos.
  • Um catálogo pode ter até 10.000 esquemas.
  • Um esquema pode ter até 10.000 tabelas.

Para obter as cotas atuais do Catálogo Unity, consulte Cotas de recursos.

Formatos de armazenamento suportados no GA

A partir de 25 de agosto de 2022:

  • Todas as tabelas gerenciadas do Unity Catalog armazenam dados com o Delta Lake
  • As tabelas do Catálogo de Unidade Externa e os locais externos suportam Delta Lake, JSON, CSV, Avro, Parquet, ORC e dados de texto.

Para obter os formatos de tabela atuais suportados pelo Unity Catalog, consulte Suporte ao formato de arquivo.

Gerencie os recursos do Catálogo Unity a partir do console da conta

Use a interface do usuário do console de conta do Azure Databricks para:

  • Gerencie o ciclo de vida do metastore (crie, atualize, exclua e visualize metastores gerenciados pelo Unity Catalog)
  • Atribuir e remover metastores para espaços de trabalho

Tipos de cluster suportados e versões do Databricks Runtime

O Unity Catalog requer clusters que executam o Databricks Runtime 11.1 ou superior. O Unity Catalog é suportado por padrão em todas as versões de computação do SQL warehouse .

As versões anteriores do Databricks Runtime suportavam versões de visualização do Unity Catalog. Os clusters executados em versões anteriores do Databricks Runtime não fornecem suporte para todos os recursos e funcionalidades do Unity Catalog GA.

O Unity Catalog requer um dos seguintes modos de acesso quando você cria um novo cluster:

  • Compartilhada
    • Linguagens: SQL ou Python
    • Um cluster seguro que pode ser compartilhado por vários usuários. Os usuários do cluster são totalmente isolados para que não possam ver os dados e as credenciais uns dos outros.
  • Utilizador único
    • Linguagens: SQL, Scala, Python, R
    • Um cluster seguro que pode ser usado exclusivamente por um único usuário especificado.

Para obter mais informações sobre modos de acesso a cluster, consulte Modos de acesso.

Para obter informações sobre a funcionalidade atualizada do Unity Catalog em versões posteriores do Databricks Runtime, consulte as notas de versão dessas versões.

Tabelas de sistema

information_schema é totalmente suportado para ativos de dados do Unity Catalog. Cada metastore inclui um catálogo referido como system que inclui um metastore com escopo .information_schema Consulte Esquema de informações. Você pode usar information_schema para responder a perguntas como as seguintes:

"Contar o número de tabelas por catálogo"

SELECT table_catalog, count(table_name)
FROM system.information_schema.tables
GROUP BY 1
ORDER by 2 DESC

"Mostre-me todas as tabelas que foram alteradas nas últimas 24 horas"

SELECT table_name, table_owner, created_by, last_altered, last_altered_by, table_catalog
FROM system.information_schema.tables
WHERE  datediff(now(), last_altered) < 1

Suporte a Streaming Estruturado

As cargas de trabalho de Streaming estruturado agora são suportadas com o Unity Catalog. Para obter detalhes e limitações, consulte Limitações.

Consulte também Usando o catálogo Unity com streaming estruturado.

Funções SQL

As funções SQL definidas pelo usuário agora são totalmente suportadas no Unity Catalog. Para obter informações sobre como criar e usar UDFs SQL, consulte CREATE FUNCTION (SQL and Python).

Sintaxe SQL para locais externos no Unity Catalog

A definição de dados padrão e os comandos de linguagem de definição de dados agora são suportados no Spark SQL para locais externos, incluindo o seguinte:

CREATE | DROP | ALTER | DESCRIBE | SHOW EXTERNAL LOCATION

Você também pode gerenciar e exibir permissões com GRANT, REVOKEe SHOW para locais externos com SQL. Consulte Localizações externas.

Sintaxe de exemplo:

CREATE EXTERNAL LOCATION <your-location-name>
  URL `<your-location-path>'
  WITH (CREDENTIAL <your-credential-name>);

GRANT READ FILES, WRITE FILES, CREATE EXTERNAL TABLE ON EXTERNAL LOCATION `<your-location-name>`
  TO `finance`;

Limitações do Catálogo Unity no GA

Em 25 de agosto de 2022, o Unity Catalog tinha as seguintes limitações. Para conhecer as limitações atuais, consulte Limitações.

  • Scala, R e cargas de trabalho usando o Machine Learning Runtime são suportadas apenas em clusters que usam o modo de acesso de usuário único. As cargas de trabalho nesses idiomas não oferecem suporte ao uso de modos de exibição dinâmicos para segurança em nível de linha ou coluna.
  • Clones superficiais não são suportados ao usar o Unity Catalog como origem ou destino do clone.
  • Não há suporte para bucketing para tabelas do Unity Catalog. Se você executar comandos que tentam criar uma tabela bucketed no Unity Catalog, ele lançará uma exceção.
  • Gravar no mesmo caminho ou na tabela Delta Lake a partir de espaços de trabalho em várias regiões pode levar a um desempenho não confiável se alguns clusters acessarem o Unity Catalog e outros não.
  • O modo de substituição para operações de gravação DataFrame no Unity Catalog é suportado apenas para tabelas Delta, não para outros formatos de arquivo. O usuário deve ter o CREATE privilégio no esquema pai e deve ser o proprietário do objeto existente.
  • Atualmente, o streaming tem as seguintes limitações:
    • Não há suporte para clusters que usam o modo de acesso compartilhado. Para cargas de trabalho de streaming, você deve usar o modo de acesso de usuário único.
    • O ponto de verificação assíncrono ainda não é suportado.
    • No Databricks Runtime versão 11.2 e inferior, as consultas de streaming que duram mais de 30 dias em clusters polivalentes ou de trabalhos lançarão uma exceção. Para consultas de streaming de longa duração, configure novas tentativas automáticas de trabalho ou use o Databricks Runtime 11.3 e superior.
  • No momento, não há suporte para a referência a tabelas do Unity Catalog a partir de pipelines do Delta Live Tables.
  • Os grupos criados anteriormente em um espaço de trabalho não podem ser usados em instruções GRANT do Unity Catalog. Isso é para garantir uma exibição consistente de grupos que podem se estender por espaços de trabalho. Para usar grupos em instruções GRANT, crie seus grupos no console da conta e atualize qualquer automação para gerenciamento de entidade ou grupo (como conectores SCIM, Okta e Microsoft Entra ID e Terraform) para fazer referência a pontos de extremidade de conta em vez de pontos de extremidade de espaço de trabalho.

Regiões de disponibilidade do Catálogo Unity no GA

Em 25 de agosto de 2022, o Catálogo Unity estava disponível nas seguintes regiões. Para obter a lista de regiões com suporte atualmente, consulte Regiões do Azure Databricks.

  • canadacentral
  • centralus
  • francecentral
  • germanywestcentral
  • japaneast
  • norwayeast
  • southafricanorth
  • swedencentral
  • switzerlandnorth
  • switzerlandwest
  • uaenorth
  • westcentralus
  • westus3
  • australiaeast
  • brazilsouth
  • centralindia
  • eastus
  • eastus2
  • koreacentral
  • northcentralus
  • northeurope
  • southeastasia
  • ukwest
  • westeurope
  • westus