Apache Spark no Azure Databricks
Este artigo descreve como o Apache Spark está relacionado ao Azure Databricks e à Databricks Data Intelligence Platform.
O Apache Spark está no coração da plataforma Azure Databricks e é a tecnologia que alimenta clusters de computação e armazéns SQL. O Azure Databricks é uma plataforma otimizada para o Apache Spark, fornecendo uma plataforma eficiente e simples para executar cargas de trabalho do Apache Spark.
Qual é a relação do Apache Spark com o Azure Databricks?
A empresa Databricks foi fundada pelos criadores originais do Apache Spark. Como um projeto de software de código aberto, o Apache Spark tem committers de muitas empresas de topo, incluindo a Databricks.
A Databricks continua a desenvolver e lançar recursos para o Apache Spark. O Databricks Runtime inclui otimizações adicionais e recursos proprietários que se baseiam e estendem o Apache Spark, incluindo Photon, uma versão otimizada do Apache Spark reescrita em C++.
Como funciona o Apache Spark no Azure Databricks?
Quando você implanta um cluster de computação ou um SQL warehouse no Azure Databricks, o Apache Spark é configurado e implantado em máquinas virtuais. Você não precisa configurar ou inicializar um contexto do Spark ou uma sessão do Spark, pois eles são gerenciados para você pelo Azure Databricks.
Posso usar o Azure Databricks sem usar o Apache Spark?
O Azure Databricks dá suporte a uma variedade de cargas de trabalho e inclui bibliotecas de código aberto no Databricks Runtime. O Databricks SQL usa o Apache Spark nos bastidores, mas os usuários finais usam sintaxe SQL padrão para criar e consultar objetos de banco de dados.
O Databricks Runtime for Machine Learning é otimizado para cargas de trabalho de ML e muitos cientistas de dados usam bibliotecas primárias de código aberto como TensorFlow e SciKit Learn enquanto trabalham no Azure Databricks. Você pode usar trabalhos para agendar cargas de trabalho arbitrárias em relação a recursos de computação implantados e gerenciados pelo Azure Databricks.
Por que usar o Apache Spark no Azure Databricks?
A plataforma Databricks fornece um ambiente seguro e colaborativo para desenvolver e implantar soluções empresariais que se adaptam ao seu negócio. Os funcionários da Databricks incluem muitos dos mantenedores e usuários do Apache Spark mais experientes do mundo. A empresa desenvolve e lança continuamente novas otimizações para garantir que os usuários possam acessar o ambiente mais rápido para executar o Apache Spark.
Como posso saber mais sobre como usar o Apache Spark no Azure Databricks?
Para começar a usar o Apache Spark no Azure Databricks, mergulhe direto! O tutorial do Apache Spark DataFrames orienta o carregamento e a transformação de dados em Python, R ou Scala. Consulte Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames.
Informações adicionais sobre o suporte às linguagens Python, R e Scala no Spark podem ser encontradas nas seções PySpark on Azure Databricks, Visão geral do SparkR e Azure Databricks para desenvolvedores do Scala, bem como em Referência para APIs do Apache Spark.