Setembro de 2020
Esses recursos e melhorias na plataforma Azure Databricks foram lançados em setembro de 2020.
Observação
As versões são disponibilizadas em fases. Talvez sua conta do Azure Databricks só seja atualizada uma semana após a data de lançamento inicial.
Databricks Runtime 7.3, 7.3 ML e 7.3 Genomics agora estão no GA
24 de setembro de 2020
O Databricks Runtime 7.3, o Databricks Runtime 7.3 para Machine Learning e o Databricks Runtime 7.3 para Genomics já estão disponíveis para o público geral. Eles trazem muitos recursos e aprimoramentos, incluindo:
- Otimizações de desempenho do Delta Lake reduzem significativamente a sobrecarga
- Métricas de clonagem
- Melhorias do Delta Lake
MERGE INTO
- Especificar a posição inicial para o fluxo estruturado do Delta Lake
- Aprimoramentos do Carregador Automático
- Execução de consulta adaptável
- Controle de comprimento de coluna do conector do Azure Synapse Analytics
- Comportamento aprimorado de
dbutils.credentials.showRoles
- Conversão simplificada de dataframe do pandas para Spark
- Novo
maxResultSize
na chamadatoPandas()
- Capacidade de depuração de UDFs do pandas e PySpark
- (Apenas ML) Ativação do Conda em trabalhos
- (Apenas Genomics) Suporte para leitura de arquivos BGEN com genótipos descompactados ou compactados com zstd
- Atualizações da biblioteca
Para obter mais informações, confira Databricks Runtime 7.3 LTS (EoS) e Databricks Runtime 7.3 LTS para Machine Learning (EoS).
Clusters de nó único (Versão Prévia Pública)
23 a 29 de setembro de 2020: versão 3.29
Um cluster de nó único é um cluster que consiste em um driver do Spark e nenhum trabalho do Spark. Por outro lado, os clusters de modo Standard exigem, pelo menos, um trabalho do Spark para executar trabalhos do Spark. Os clusters no modo de nó único são úteis nas seguintes situações:
- Execução de cargas de trabalho de machine learning de nó único que precisam do Spark para carregar e salvar dados
- EDA (análise exploratória de dados) leve
Para obter mais detalhes, confira Computação de nó único ou multinós.
Limitação da taxa da API REST do DBFS
23 a 29 de setembro de 2020: versão 3.29
Para garantir a alta qualidade do serviço sob carga pesada, o Azure Databricks agora impõe limites de taxa de API para todas as chamadas à API do DBFS. Os limites são definidos por workspace para garantir o uso justo e a alta disponibilidade. As novas tentativas automáticas estão disponíveis usando a CLI do Databricks versão 0.12.0 e superior. Recomendamos que todos os clientes alternem para a versão do cliente mais recente do Databricks.
Novos ícones da barra lateral
23 a 29 de setembro de 2020
Atualizamos a barra lateral na interface do usuário do workspace do Azure Databricks. Não é grande coisa, mas achamos que os novos ícones ficaram muito bons.
Aumento do limite de trabalhos em execução
23 a 29 de setembro de 2020: versão 3.29
O limite de execução de trabalho em execução simultânea foi aumentado de 150 para 1000 por workspace. As execuções com mais de 150 não serão mais enfileiradas no estado pendente. Em vez de uma fila para solicitações de execução acima das execuções simultâneas, uma resposta 429 Too Many Requests
retorna quando você solicita uma execução que não pode ser iniciada imediatamente. Esse aumento de limite foi implementado gradualmente e agora está disponível em todos os workspaces em todas as regiões.
ACLs (listas de controle de acesso) do artefato no MLflow
23 a 29 de setembro de 2020: versão 3.29
As permissões de experimento do MLflow são impostas em artefatos no Acompanhamento do MLflow, permitindo que você controle facilmente o acesso a conjuntos de dados, modelos e outros arquivos. Por padrão, quando você cria um novo experimento, seus artefatos de execução são armazenados em um local gerenciado pelo MLflow. Os quatro níveis de permissões do Experimento do MLflow (NO PERMISSIONS, CAN READ, CAN EDIT e CAN MANAGE) se aplicam automaticamente a artefatos de execução armazenados em locais gerenciados pelo MLflow, como se segue:
- As permissões CAN EDIT ou CAN MANAGE são necessárias para registrar artefatos de execução em um experimento.
- As permissões CAN READ são necessárias para listar e baixar os artefatos de execução de um experimento.
Para obter mais informações, consulte ACLs de experimento do MLflow.
Melhorias na usabilidade do MLflow
23 a 29 de setembro de 2020: versão 3.29
Essa versão inclui as seguintes melhorias de uso do MLflow:
- As páginas Experimento e Modelos Registrados do MLflow agora têm dicas para ajudar novos usuários a começar.
- Agora, a tabela de versão do modelo mostra o texto de descrição de uma versão do modelo. Uma nova coluna mostra os primeiros 32 caracteres ou a primeira linha (o que for menor) da descrição.
Novo conector do Power BI para Azure Databricks (Versão Prévia Pública)
22 de setembro de 2020
O Power BI Desktop versão 2.85.681.0 inclui um novo conector do Power BI para Azure Databricks que torna a integração entre o Azure Databricks e o Power BI muito mais direta e confiável. O novo conector vem com as seguintes melhorias:
- Configuração de conexão simples: o novo conector do Power BI para Azure Databricks é integrado ao Power BI e pode ser configurado com alguns cliques, usando uma caixa de diálogo simples.
- Autenticação baseada em credenciais do Microsoft Entra ID: a configuração de tokens PAT por administradores não é mais necessária.
- Importações mais rápidas e chamadas de metadados otimizadas, graças ao novo driver ODBC do Azure Databricks, que vem com melhorias significativas de desempenho.
- O acesso a dados do Azure Databricks por meio de Power BI respeita o controle de acesso à tabela do Azure Databricks e as permissões de conta de armazenamento do Azure associadas à sua identidade do Microsoft Entra ID.
Para obter mais informações, confira Conectar o Power BI ao Azure Databricks.
Usar chaves gerenciadas pelo cliente para a raiz DBFS (Versão prévia pública)
15 de setembro de 2020
Agora, você pode usar sua própria chave de criptografia no Azure Key Vault para criptografar a conta de armazenamento do DBFS. Consulte Chaves gerenciadas pelo cliente da raiz do DBFS.
Novos drivers ODBC e JDBC têm um BI com latência mais rápida e baixa
15 de setembro de 2020
Lançamos novas versões dos drivers JDBC e ODBC do Databricks (download) com as seguintes melhorias:
- Desempenho: conexão reduzida e latência de consulta curta, velocidade de transferência de resultados aprimorada com base na serialização do Apache Arrow e melhor desempenho de recuperação de metadados.
- Experiência do usuário: autenticação usando tokens de acesso OAuth2 do Microsoft Entra ID, mensagens de erro aprimoradas e nova tentativa automática ao se conectar a um cluster de desligamento, manipulação mais robusta de novas tentativa em erros intermitentes de rede.
- Suporte para conexões usando proxy HTTP.
Para saber mais sobre como se conectar a ferramentas de BI usando JDBC e ODBC, confira Drivers de ODBC e de JDBC do Databricks.
Serviço de Modelo de MLflow (Versão prévia pública)
9 a 15 de setembro de 2020: versão 3.28
O Serviço de Modelo do MLflow está disponível em Visualização Pública. O Serviço de Modelo do MLflow permite implantar um modelo do MLflow registrado no Registro de Modelo como um ponto de extremidade da API REST hospedado e gerenciado pelo Azure Databricks. Quando você habilita o serviço de modelo para um modelo registrado, Azure Databricks cria um cluster e implanta todas as versões não arquivadas desse modelo.
Você pode consultar todas as versões de modelo por solicitações da API REST com autenticação padrão do Azure Databricks. Os direitos de acesso de modelo são herdados do Registro de Modelo – qualquer pessoa com direitos de leitura para um modelo registrado pode consultar qualquer uma das versões de modelo implantadas. Enquanto esse serviço está em versão prévia, recomendamos o uso dele para aplicativos não críticos de baixa taxa de transferência.
Para saber mais, confira Serviço de Modelo do MLflow Herdado no Azure Databricks.
Aprimoramentos de interface do usuário dos clusters
9 a 15 de setembro de 2020: versão 3.28
Agora, a página Clusters tem guias separadas para Clusters para Todos os Fins e Clusters de Trabalho. A lista em cada guia agora é paginada. Além disso, corrigimos o atraso que às vezes ocorria entre a criação de um cluster e a capacidade de vê-lo na interface do usuário.
Controles de visibilidade para trabalhos, clusters, notebooks e outros objetos do espaço de trabalho
9 a 15 de setembro de 2020: versão 3.28
Por padrão, qualquer usuário pode ver todos os trabalhos, clusters, notebooks e pastas em seu workspace na interface do usuário do Azure Databricks e pode listá-los usando a API do Databricks, mesmo quando o controle de acesso estiver habilitado para esses objetos e um usuário não tiver permissões nesses objetos.
Agora, qualquer administrador do Azure Databricks pode habilitar controles de visibilidade para notebooks e pastas (objetos de workspace), clusters e trabalhos para garantir que os usuários possam exibir somente os objetos para os quais receberam acesso por meio do workspace, cluster ou controle de acesso de trabalhos.
Confira As listas de controles de acesso não podem mais ser desabilitadas.
Capacidade de criar tokens que não são mais permitidos por padrão
9 a 15 de setembro de 2020: versão 3.28
Para workspaces criados após o lançamento da plataforma Azure Databricks versão 3.28, os usuários não terão mais a capacidade de gerar tokens de acesso pessoal por padrão. Os administradores precisam conceder explicitamente essas permissões, seja para todo o grupo de users
, seja para cada usuário ou grupo. Os workspaces criados antes de 3.28 manterão as permissões que já estavam em vigor.
Consulte Monitorar e revogar tokens de acesso pessoal.
O Registro de Modelos MLflow dá suporte ao compartilhamento de modelos entre workspaces
9 de setembro de 2020
Agora, o Azure Databricks dá suporte ao acesso ao registro de modelo de vários workspaces. Agora, você pode registrar modelos, acompanhar as execuções de modelo e carregar modelos entre workspaces. Agora, várias equipes podem compartilhar o acesso a modelos, e as organizações podem usar vários workspaces para lidar com os diferentes estágios de desenvolvimento. Para obter detalhes, confira Compartilhar modelos entre workspaces.
Essa funcionalidade exige o cliente Python do MLflow versão 1.11.0 ou superior.
Databricks Runtime 7.3 (Beta)
3 de setembro de 2020
O Databricks Runtime 7.3, o Databricks Runtime 7.3 para Machine Learning e o Databricks Runtime 7.3 para Genomics já estão disponíveis como versões Beta.
Para obter informações, confira Databricks Runtime 7.3 LTS (EoS) e Databricks Runtime 7.3 LTS para Machine Learning (EoS).
Alteração de nome de tipo de carga de trabalho do Azure Databricks
1 de setembro de 2020
Os nomes dos tipos de carga de trabalho usados pelos clusters foram alterados:
- Engenharia de dados –> Computação de Trabalhos
- Engenharia de Dados Light –> Computação de Trabalhos Light
- Análise de Dados –> Computação para todos os fins
Esses novos nomes aparecerão em faturas e no portal do EA em combinação com seu plano de preços (por exemplo, "Premium - Computação de Trabalhos - DBU"). Para obter detalhes, confira Medidores do Azure Databricks.
A interface do usuário também foi alterada na versão 3.27 da plataforma (destinada à versão em etapas entre 25 de agosto e 3 de setembro):
Na página Clusters, os títulos da lista foram alterados:
- Clusters Interativos –> Clusters para Todos os Fins
- Clusters Automatizados –> Clusters de Trabalho
Quando você configura um cluster para um trabalho, as opções Tipo de Cluster mudam:
- Novo Cluster Automatizado – > Novo Cluster de Trabalho
- Cluster Interativo Existente – > Cluster para Todos os Fins Existente