Uw eerste structured streaming-workload uitvoeren

Artikel
12/27/2024

Dit artikel bevat codevoorbeelden en uitleg van basisconcepten die nodig zijn om uw eerste Structured Streaming-query's uit te voeren op Azure Databricks. U kunt Structured Streaming gebruiken voor werkbelastingen in bijna realtime en incrementele verwerking.

Structured Streaming is een van de verschillende technologieën die streaming tables in Delta Live Tablesaandrijft. Databricks raadt het gebruik van Delta Live-Tables aan voor alle nieuwe ETL-, opname- en Structured Streaming-workloads. Zie Wat is Delta Live Tables?.

Notitie

Hoewel Delta Live Tables een enigszins gewijzigde syntaxis biedt voor het declareren van streaming tables, is de algemene syntaxis voor het configureren van lees- en transformaties voor streaming van toepassing op alle gebruiksvoorbeelden voor streaming in Azure Databricks. Delta Live Tables vereenvoudigt het streamen ook door statusinformatie, metagegevens en talloze configuraties te beheren.

Automatisch laden gebruiken om streaminggegevens uit objectopslag te lezen

In het volgende voorbeeld ziet u hoe u JSON-gegevens laadt met Auto Loader, die wordt gebruikt cloudFiles om indeling en opties aan te geven. De optie schemaLocation maakt schema deductie en evolutie mogelijk. Plak de volgende code in een Databricks-notebookcel en voer de cel uit om een streaming DataFrame met de naam raw_dfte maken:

file_path = "/databricks-datasets/structured-streaming/events"
checkpoint_path = "/tmp/ss-tutorial/_checkpoint"

raw_df = (spark.readStream
    .format("cloudFiles")
    .option("cloudFiles.format", "json")
    .option("cloudFiles.schemaLocation", checkpoint_path)
    .load(file_path)
)

Net als bij andere leesbewerkingen in Azure Databricks worden bij het configureren van een streaming-leesbewerking geen gegevens geladen. U moet een actie activeren voor de gegevens voordat de stream begint.

Notitie

Als u een streaming DataFrame aanroept display() , wordt een streamingtaak gestart. Voor de meeste gebruiksscenario's voor gestructureerd streamen moet de actie die een stroom activeert gegevens naar een sink schrijven. Zie Overwegingen voor productie voor gestructureerd streamen.

Een streamingtransformatie uitvoeren

Structured Streaming ondersteunt de meeste transformaties die beschikbaar zijn in Azure Databricks en Spark SQL. U kunt zelfs MLflow-modellen als UDF's laden en streamingvoorspellingen doen als transformatie.

In het volgende codevoorbeeld wordt een eenvoudige transformatie voltooid om de opgenomen JSON-gegevens te verrijken met aanvullende informatie met behulp van Spark SQL-functies:

from pyspark.sql.functions import col, current_timestamp

transformed_df = (raw_df.select(
    "*",
    col("_metadata.file_path").alias("source_file"),
    current_timestamp().alias("processing_time")
    )
)

Het resulterende transformed_df bevat query-instructies voor het laden en transformeren van elke record wanneer deze in de gegevensbron binnenkomt.

Notitie

Structured Streaming behandelt gegevensbronnen als niet-gebonden of oneindige gegevenssets. Daarom worden sommige transformaties niet ondersteund in Structured Streaming-workloads, omdat hiervoor een oneindig aantal items moet worden gesorteerd.

Voor de meeste aggregaties en veel joins is het beheren van statusgegevens met watermerken, vensters en uitvoermodus vereist. Zie Watermerken toepassen om drempelwaarden voor gegevensverwerking te beheren.

Incrementele batch-schrijfbewerkingen uitvoeren naar Delta Lake

In het volgende voorbeeld wordt naar Delta Lake geschreven met behulp van een opgegeven bestandspad en controlepunt.

Belangrijk

Zorg er altijd voor dat u een unieke controlepuntlocatie opgeeft voor elke streamingschrijver die u configureert. Het controlepunt biedt de unieke identiteit voor uw stream, waarbij alle verwerkte records en statusgegevens worden bijgehouden die zijn gekoppeld aan uw streamingquery.

Met availableNow de instelling voor de trigger wordt gestructureerd streamen geïnstrueerd om alle eerder niet-verwerkte records uit de brongegevensset te verwerken en vervolgens af te sluiten, zodat u de volgende code veilig kunt uitvoeren zonder dat u zich zorgen hoeft te maken over het verlaten van een stroom die wordt uitgevoerd:

target_path = "/tmp/ss-tutorial/"
checkpoint_path = "/tmp/ss-tutorial/_checkpoint"

transformed_df.writeStream
    .trigger(availableNow=True)
    .option("checkpointLocation", checkpoint_path)
    .option("path", target_path)
    .start()

In dit voorbeeld komen er geen nieuwe records binnen in de gegevensbron. Herhaal de uitvoering van deze code neemt dus geen nieuwe records op.

Waarschuwing

Uitvoering van gestructureerd streamen kan voorkomen dat automatische beëindiging rekenresources afsluit. Als u onverwachte kosten wilt voorkomen, moet u streamingquery's beëindigen.

Gegevens lezen uit Delta Lake, transformeren en schrijven naar Delta Lake

Delta Lake biedt uitgebreide ondersteuning voor het werken met Structured Streaming als bron en een sink. Zie Delta table streaming leest en schrijft.

In het volgende voorbeeld ziet u een voorbeeldsyntaxis om alle nieuwe records uit een Delta-tableincrementeel te laden, ze te join met een momentopname van een andere Delta-tableen ze naar een Delta-tablete schrijven:

(spark.readStream
    .table("<table-name1>")
    .join(spark.read.table("<table-name2>"), on="<id>", how="left")
    .writeStream
    .trigger(availableNow=True)
    .option("checkpointLocation", "<checkpoint-path>")
    .toTable("<table-name3>")
)

U moet over de juiste machtigingen beschikken voor het lezen van bron-tables en schrijven naar de doel-tables en de opgegeven controlepuntlocatie. Vul alle parameters die zijn aangeduid met punthaken (<>) in met behulp van de relevante values voor uw gegevensbronnen en -ontvangers.

Notitie

Delta Live Tables biedt een volledig declaratieve syntaxis voor het maken van Delta Lake-pijplijnen en beheert eigenschappen zoals triggers en controlepunten automatisch. Zie Wat is Delta Live Tables?.

Gegevens lezen uit Kafka, transformeren en schrijven naar Kafka

Apache Kafka en andere berichtenbussen bieden een aantal van de laagste latentie die beschikbaar is voor grote gegevenssets. U kunt Azure Databricks gebruiken om transformaties toe te passen op gegevens die zijn opgenomen vanuit Kafka en vervolgens gegevens terug te schrijven naar Kafka.

Notitie

Door gegevens naar cloudobjectopslag te schrijven, wordt extra latentieoverhead toegevoegd. Als u gegevens wilt opslaan uit een berichtenbus in Delta Lake, maar de laagste latentie nodig hebt voor streamingworkloads, raadt Databricks u aan afzonderlijke streamingtaken te configureren om gegevens op te nemen in lakehouse en bijna realtime transformaties toe te passen voor downstream-berichtenbus-sinks.

In het volgende codevoorbeeld ziet u een eenvoudig patroon om gegevens uit Kafka te verrijken door deze samen te voegen met gegevens in een Delta-table en vervolgens terug te schrijven naar Kafka:

(spark.readStream
    .format("kafka")
    .option("kafka.bootstrap.servers", "<server:ip>")
    .option("subscribe", "<topic>")
    .option("startingOffsets", "latest")
    .load()
    .join(spark.read.table("<table-name>"), on="<id>", how="left")
    .writeStream
    .format("kafka")
    .option("kafka.bootstrap.servers", "<server:ip>")
    .option("topic", "<topic>")
    .option("checkpointLocation", "<checkpoint-path>")
    .start()
)

U moet over de juiste machtigingen beschikken voor toegang tot uw Kafka-service. Vul alle parameters die zijn aangeduid met punthaken (<>) in met behulp van de relevante values voor uw gegevensbronnen en -ontvangers. Zie Stream-verwerking met Apache Kafka en Azure Databricks.

Delen via

Uw eerste structured streaming-workload uitvoeren

Automatisch laden gebruiken om streaminggegevens uit objectopslag te lezen

Een streamingtransformatie uitvoeren

Incrementele batch-schrijfbewerkingen uitvoeren naar Delta Lake

Gegevens lezen uit Delta Lake, transformeren en schrijven naar Delta Lake

Gegevens lezen uit Kafka, transformeren en schrijven naar Kafka

Feedback

Aanvullende resources