Concetti relativi a Structured Streaming
Questo articolo offre un'introduzione a Structured Streaming di Azure Databricks.
Che cos'è Structured Streaming?
Apache Spark Structured Streaming è un motore di elaborazione quasi in tempo reale che offre tolleranza di errore end-to-end con garanzie di elaborazione esattamente una volta usando API Spark familiari. Structured Streaming consente di esprimere il calcolo su dati di streaming nello stesso modo in cui si esprime un calcolo batch su dati statici. Il motore Structured Streaming esegue il calcolo in modo incrementale e aggiorna continuamente il risultato man mano che arrivano dati di streaming.
Leggere da un flusso dei dati
È possibile usare Structured Streaming per inserire dati in modo incrementale da origini dati supportate. Le origini dei dati comuni includono quanto segue:
- File di dati nell'archiviazione di oggetti cloud. Vedere Che cos'è l’Autoloader?.
- Bus e code dei messaggi. Vedere Configurare le origini dei dati di streaming.
- Delta Lake. Vedere Letture e scritture di streaming di tabelle Delta.
Ogni origine dati offre diverse opzioni per specificare come caricare batch di dati. Durante la configurazione del lettore, potrebbe essere necessario configurare le opzioni per eseguire le operazioni seguenti:
- Specificare l'origine dati o il formato (ad esempio il tipo di file, i delimitatori e lo schema).
- Configurare l'accesso ai sistemi di origine (ad esempio, impostazioni e credenziali della porta).
- Specificare dove iniziare in un flusso (ad esempio, offset Kafka o lettura di tutti i file esistenti).
- Controllare la quantità di dati elaborati in ogni batch (ad esempio offset massimi, file o byte per batch). Vedere Configurare le dimensioni batch di Structured Streaming in Azure Databricks.
Scrittura di sink di dati
Un sink di dati è la destinazione di un'operazione di scrittura in streaming. I sink comuni usati nei carichi di lavoro di streaming di Azure Databricks includono quanto segue:
- Delta Lake
- Bus e code dei messaggi
- Database di valori chiave
Come per le origini dei dati, la maggior parte dei sink di dati offre una serie di opzioni per controllare il modo in cui i dati vengono scritti nel sistema di destinazione. Durante la configurazione del writer, specificare le opzioni seguenti:
- Modalità di output (accodamento per impostazione predefinita). Vedere Selezionare una modalità di output per Structured Streaming.
- Posizione del checkpoint (obbligatorio per ogni writer). Vedere Checkpoint di Structured Streaming.
- Intervalli di trigger. Vedere Configurare gli intervalli di trigger del flusso strutturato.
- Opzioni che specificano il sink di dati o il formato (ad esempio il tipo di file, i delimitatori e lo schema).
- Opzioni che configurano l'accesso ai sistemi di destinazione (ad esempio, impostazioni e credenziali della porta).