Condividi tramite


Concetti relativi a Structured Streaming

Questo articolo offre un'introduzione a Structured Streaming di Azure Databricks.

Che cos'è Structured Streaming?

Apache Spark Structured Streaming è un motore di elaborazione quasi in tempo reale che offre tolleranza di errore end-to-end con garanzie di elaborazione esattamente una volta usando API Spark familiari. Structured Streaming consente di esprimere il calcolo su dati di streaming nello stesso modo in cui si esprime un calcolo batch su dati statici. Il motore Structured Streaming esegue il calcolo in modo incrementale e aggiorna continuamente il risultato man mano che arrivano dati di streaming.

Leggere da un flusso dei dati

È possibile usare Structured Streaming per inserire dati in modo incrementale da origini dati supportate. Le origini dei dati comuni includono quanto segue:

Ogni origine dati offre diverse opzioni per specificare come caricare batch di dati. Durante la configurazione del lettore, potrebbe essere necessario configurare le opzioni per eseguire le operazioni seguenti:

  • Specificare l'origine dati o il formato (ad esempio il tipo di file, i delimitatori e lo schema).
  • Configurare l'accesso ai sistemi di origine (ad esempio, impostazioni e credenziali della porta).
  • Specificare dove iniziare in un flusso (ad esempio, offset Kafka o lettura di tutti i file esistenti).
  • Controllare la quantità di dati elaborati in ogni batch (ad esempio offset massimi, file o byte per batch). Vedere Configurare le dimensioni batch di Structured Streaming in Azure Databricks.

Scrittura di sink di dati

Un sink di dati è la destinazione di un'operazione di scrittura in streaming. I sink comuni usati nei carichi di lavoro di streaming di Azure Databricks includono quanto segue:

  • Delta Lake
  • Bus e code dei messaggi
  • Database di valori chiave

Come per le origini dei dati, la maggior parte dei sink di dati offre una serie di opzioni per controllare il modo in cui i dati vengono scritti nel sistema di destinazione. Durante la configurazione del writer, specificare le opzioni seguenti: