Introducción a Azure Databricks

Completado

Azure Databricks es una plataforma de análisis de datos basada en la nube que proporciona un entorno unificado para ingeniería de datos, aprendizaje automático y análisis. Azure Databricks se diseñó en colaboración con Databricks, cuya dirección creó Apache Spark. Azure Databricks ofrece un servicio de análisis rápido, sencillo y colaborativo basado en Apache Spark. Esta plataforma se integra profundamente con otros servicios de Azure, lo que proporciona una experiencia perfecta para los usuarios con mayor seguridad, rendimiento y escalabilidad. Permite tareas controladas por datos, como la preparación de datos, el aprendizaje automático y los flujos de trabajo de ciencia de datos, lo que lo convierte en una herramienta versátil para las organizaciones que buscan aprovechar la eficacia de los macrodatos.

Entre las características clave de Azure Databricks se incluye su integración nativa con Microsoft Entra ID y su capacidad de usar otros servicios de Azure, como Azure Storage, Azure Data Lake Storage y Azure Cosmos DB. La plataforma también ofrece un área de trabajo interactiva que facilita la colaboración entre científicos de datos, ingenieros de datos y analistas de negocios. Este entorno de colaboración admite varios lenguajes de programación como Python, Scala, R y SQL, lo que permite a los equipos desarrollar e iterar en sus modelos de datos de forma eficaz. Además, Azure Databricks está diseñado para escalar fácilmente, administrando las demandas computacionales de algoritmos de aprendizaje automático y las necesidades de procesamiento de grandes conjuntos de datos.

Creación de un área de trabajo de Azure Databricks

Para usar Azure Databricks, debe crear un área de trabajo de Azure Databricks en la suscripción de Azure. Para lograr esto, haga lo siguiente:

  • Usar la interfaz de usuario de Azure Portal
  • Usar una plantilla de Azure Resource Manager (ARM) o Bicep
  • Usar el cmdlet de Azure PowerShell New-AzDatabricksWorkspace
  • Usar el comando de la interfaz de la línea de comandos (CLI) de Azure az databricks workspace create

Al crear un área de trabajo, debe especificar uno de los siguientes planes de tarifa.

  • Estándar: funcionalidades principales de Apache Spark con la integración de Microsoft Entra ID.
  • Premium: controles de acceso basado en roles y otras características de nivel empresarial.
  • Evaluación: evaluación gratuita de 14 días de un área de trabajo de nivel Premium.

Azure Databricks

Uso del portal de Azure Databricks

Después de aprovisionar un área de trabajo de Azure Databricks, puede usar el portal de Azure Databricks para trabajar con datos y recursos del proceso. El portal de Azure Databricks es una interfaz de usuario basada en web en la que puede crear y administrar recursos del área de trabajo, como clústeres de Spark, y usar cuadernos y consultas para trabajar con datos en archivos y tablas.

Portal de Azure Databricks