Compartir a través de


Streaming en Azure Databricks

Puede usar Azure Databricks para la ingesta de datos, el procesamiento, el aprendizaje automático y la inteligencia artificial casi en tiempo real para los datos de streaming.

Azure Databricks ofrece numerosas optimizaciones para el streaming y el procesamiento incremental, incluidas las siguientes:

Delta Lake proporciona la capa de almacenamiento para estas integraciones. Consulte Lecturas y escrituras en streaming de tablas delta.

Para obtener servicios de modelos en tiempo real, consulte Servicio de modelos con Azure Databricks.

  • Tutorial

    Conozca los conceptos básicos del procesamiento casi en tiempo real e incremental con el flujo estructurado de Azure Databricks.

  • Conceptos

    Obtenga información sobre los conceptos básicos para configurar cargas de trabajo incrementales y casi en tiempo real con Structured Streaming.

  • Streaming con estado

    Administrar la información de estado intermedio de las consultas de Structured Streaming con estado puede ayudarle a evitar problemas inesperados de latencia y producción.

  • Consideraciones de producción

    En este artículo se ofrecen recomendaciones para configurar cargas de trabajo de procesamiento incremental de producción con Structured Streaming en Azure Databricks para cumplir los requisitos de latencia y costes de las aplicaciones en tiempo real o por lotes.

  • Supervisión de secuencias

    Obtenga información sobre cómo supervisar aplicaciones de Structured Streaming en Azure Databricks.

  • Integración de Unity Catalog

    Obtenga información sobre cómo sacar provecho de Unity Catalog junto con Structured Streaming en Azure Databricks.

  • Streaming con Delta

    Descubra cómo usar tablas de Delta Lake como orígenes y receptores de streaming.

  • Ejemplos

    Consulte ejemplos de uso de Spark Structured Streaming con Cassandra, Azure Synapse Analytics, cuadernos de Python y cuadernos de Scala en Azure Databricks.

Azure Databricks dispone de características específicas para trabajar con los campos de datos semiestructurados que contienen las cargas de datos de Avro, búfers de protocolo y JSON. Para obtener más información, consulte:

Recursos adicionales

Apache Spark proporciona una guía de programación de streaming estructurado que tiene más información sobre Structured Streaming.

Para obtener información de referencia sobre Structured Streaming, Databricks recomienda las siguientes referencias de la API de Apache Spark: