Streaming no Azure Databricks
Você pode usar o Azure Databricks para ingestão, processamento, aprendizado de máquina e IA de dados quase em tempo real para streaming de dados.
O Azure Databricks oferece várias otimizações para streaming e processamento incremental, incluindo o seguinte:
- Delta Live Tables fornece sintaxe declarativa para processamento incremental. Consulte O que é Delta Live Tables?.
- O Auto Loader simplifica a ingestão incremental do armazenamento de objetos na nuvem. Consulte O que é Auto Loader?.
- O Unity Catalog adiciona governança de dados a cargas de trabalho de streaming. Consulte Usando o catálogo Unity com streaming estruturado.
O Delta Lake fornece a camada de armazenamento para essas integrações. Consulte Leituras e gravações de streaming de tabela Delta.
Para servir modelos em tempo real, consulte Model serving with Azure Databricks.
-
Aprenda as noções básicas de processamento quase em tempo real e incremental com o Streaming Estruturado no Azure Databricks.
-
Aprenda os principais conceitos para configurar cargas de trabalho incrementais e quase em tempo real com o Structured Streaming.
-
O gerenciamento das informações de estado intermediário de consultas de Streaming estruturado com monitoração de estado pode ajudar a evitar latência inesperada e problemas de produção.
Considerações sobre a produção
Este artigo contém recomendações para configurar cargas de trabalho de processamento incremental da produção com Transmissão em Fluxo Estruturada no Azure Databricks para cumprir os requisitos de latência e custo para aplicações tempo real ou em lote.
-
Saiba como monitorar aplicativos de Streaming Estruturado no Azure Databricks.
Integração com o Unity Catalog
Saiba como aproveitar o Catálogo Unity em conjunto com o Streaming Estruturado no Azure Databricks.
-
Saiba como usar as tabelas Delta Lake como fontes e coletores de streaming.
-
Veja exemplos de utilização do Spark Structured Streaming com Cassandra, Azure Synapse Analytics, blocos de notas Python e blocos de notas Scala no Azure Databricks.
O Azure Databricks tem recursos específicos para trabalhar com campos de dados semiestruturados contidos no Avro, buffers de protocolo e cargas úteis de dados JSON. Para saber mais, veja:
- Ler e escrever dados do Avro de transmissão em fluxo
- Buffers de protocolo de leitura e gravação
- Consultar cadeias de caracteres JSON
Recursos adicionais
O Apache Spark fornece um Guia de Programação de Streaming Estruturado com mais informações sobre Streaming Estruturado.
Para obter informações de referência sobre o Structured Streaming, o Databricks recomenda as seguintes referências da API do Apache Spark: