Janeiro de 2019
Esses recursos e aprimoramentos na plataforma Azure Databricks foram lançados em janeiro de 2019.
Observação
As versões são disponibilizadas em fases. Talvez sua conta do Azure Databricks só seja atualizada uma semana após a data de lançamento inicial.
Alterações futuras: O Python 3 agora é o padrão quando você cria clusters
29 de janeiro de 2019
Quando a plataforma Databricks versão 2.91 for lançada em meados de fevereiro, a versão padrão do Python para novos clusters mudará do Python 2 para o Python 3. Os clusters existentes não alterarão as versões do Python, é claro. Mas se você tiver o hábito de usar o padrão do Python 2 ao criar clusters, precisará começar a prestar atenção à seleção de versão do Python.
Versão do Databricks Runtime 5.2 para Machine Learning (Beta)
24 de janeiro de 2019
O Databricks Runtime 5.2 ML foi desenvolvido com base no Databricks Runtime 5.2 (EoS). Ele contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, Keras e XGBoost, e fornece treinamento de TensorFlow distribuído usando o Horovod. Além das atualizações de biblioteca desde o Databricks Runtime para ML versão 5.1, o Databricks Runtime 5.2 para ML inclui os seguintes novos recursos:
- O GraphFrames agora oferece suporte à API do Pregel (Python) com otimizações de desempenho do Databricks.
- Adições feitas ao HorovodRunner:
- Em um cluster de GPU, os processos de treinamento são mapeados para GPUs em vez de nós de trabalho, para simplificar o suporte a tipos de instância de várias GPUs. Esse suporte interno permite distribuir para todas as GPUs em um computador com várias GPUs sem código personalizado.
HorovodRunner.run()
agora apresenta o valor retornado do primeiro processo de treinamento.
Confira as notas sobre a versão completas do Databricks Runtime 5.2 ML. d
Versão do Databricks Runtime 5.2
24 de janeiro de 2019
O Databricks Runtime 5.2 já está disponível. O Databricks Runtime 5.2 inclui o Apache Spark 2.4.0, novos recursos e atualizações do Delta Lake e de Fluxo Estruturado, além de bibliotecas Python, R, Java e Scala atualizadas. Para obter detalhes, consulte Databricks Runtime 5.2 (EoS).
Exibição JSON da configuração do cluster
De 15 a 22 de janeiro de 2019
A página de configuração de cluster agora dá suporte a uma exibição JSON:
A exibição JSON é somente leitura. No entanto, você pode copiar o JSON e usá-lo para criar e atualizar clusters com a API de Clusters.
IU do cluster
De 15 a 22 de janeiro de 2019: versão 2.89
A página de criação de cluster foi limpa e reorganizada para facilitar o uso, incluindo um novo botão de alternância para Opções Avançadas.
Implantar o Azure Databricks em sua Rede Virtual do Azure (Injeção de VNet)
10 de janeiro de 2019
Importante
Esse recurso está em uma versão prévia.
A implantação padrão do Azure Databricks é um serviço totalmente gerenciado no Azure: todos os recursos do plano de computação, incluindo uma VNet (rede virtual) à qual todos os clusters serão associados, são implantados em um grupo de recursos bloqueado. No entanto, se você precisa de personalização de rede, agora é possível fazer a implantação do Azure Databricks em sua própria rede virtual (também chamada de injeção de VNet), o que permite a você:
- Conectar o Azure Databricks a outros serviços do Azure (como o Armazenamento do Azure) de maneira mais segura usando pontos de extremidade de serviço.
- Conectar-se a fontes de dados locais para uso com o Azure Databricks aproveitando as rotas definidas pelo usuário.
- Conectar o Azure Databricks a uma solução de virtualização de rede para inspecionar todo o tráfego de saída e realizar ações de acordo com as regras de permissão e negação.
- Configurar o Azure Databricks para usar o DNS personalizado.
- Configurar as regras de NSG (grupo de segurança de rede) para especificar restrições de tráfego de saída.
- Implantar clusters do Azure Databricks em sua rede virtual existente.
Implantar o Azure Databricks à sua rede virtual também permite que você aproveite as vantagens dos intervalos de CIDR flexíveis (algo em torno de /16-/24 para a rede virtual e entre /18-/26 para as sub-redes).
A configuração usando a interface do usuário portal do Azure é rápida e fácil: quando você cria um workspace, basta selecionar Implantar um workspace do Azure Databricks em sua Rede Virtual, selecionar sua rede virtual e fornecer intervalos de CIDR para duas sub-redes. O Azure Databricks atualiza a rede virtual com as duas novas sub-redes e grupos de segurança de rede usando intervalos de CIDR fornecidos por você, permite o acesso ao tráfego de sub-rede de entrada e saída e implanta o workspace na rede virtual atualizada.
Se você preferir configurar a rede virtual para injeção de VNet por conta própria – por exemplo, você deseja usar sub-redes existentes, grupos de segurança de rede existentes ou criar suas próprias regras de segurança – você pode usar modelos do ARM fornecidos pelo Azure Databricks em vez da interface do usuário do portal.
Observação
Este recurso estava disponível anteriormente apenas por inscrição. Ele permanece em versão prévia, mas agora é um serviço totalmente de autoatendimento.
Para obter detalhes, consulte Implantar o Azure Databricks em sua rede virtual do Azure (injeção de VNet) e Conecte seu workspace do Azure Databricks na rede local.
IU da biblioteca
De 2 a 9 de janeiro de 2019: versão 2.88
Os aprimoramentos da interface do usuário da biblioteca que foram originalmente lançados em novembro de 2018 e revertidos logo depois foram lançados novamente. Essas atualizações facilitam o carregamento, a instalação e o gerenciamento de bibliotecas para seus clusters do Azure Databricks.
A interface do usuário do Azure Databricks agora oferece suporte a bibliotecas de workspace e bibliotecas instaladas no cluster. Existe uma biblioteca de workspace no Workspace que pode ser instalada em um ou mais clusters. Uma biblioteca instalada no cluster existe somente no contexto do cluster ao qual está instalada. Além disso:
- Agora é possível criar uma biblioteca a partir de um arquivo carregado no armazenamento de objetos.
- Agora é possível instalar e desinstalar bibliotecas da página de detalhes da biblioteca e da guia Bibliotecas do cluster.
- As bibliotecas instaladas com o uso da API agora são exibidas na guia Bibliotecas de um cluster.
Para obter detalhes, consulte Bibliotecas.
Eventos do cluster
De 2 a 9 de janeiro de 2019: versão 2.88
Novos eventos de cluster foram adicionados para refletir o status do driver do Spark. Para obter detalhes, consulte API de clusters.
Controle de versão do notebook usando Azure DevOps Services
De 2 a 9 de janeiro de 2019: versão 2.88
O Azure Databricks agora facilita o uso do Azure DevOps Services (anteriormente conhecido como VSTS) para controlar versões de seus notebooks. A autenticação é automática, a instalação é simples e você gerencia as revisões do notebook da mesma forma que faz com nossa integração do GitHub.
Para conhecer os detalhes, confira Controle de versão do Git para notebooks (herdado)