Wat is Apache Flink® in Azure HDInsight op AKS? (Voorvertoning)

Artikel
09/20/2024

Belangrijk

Azure HDInsight op AKS is op 31 januari 2025 buiten gebruik gesteld. Kom meer te weten met deze aankondiging.

U moet uw workloads migreren naar Microsoft Fabric- of een gelijkwaardig Azure-product om plotselinge beëindiging van uw workloads te voorkomen.

Belangrijk

Deze functie is momenteel beschikbaar als preview-versie. De aanvullende gebruiksvoorwaarden voor Microsoft Azure Previews meer juridische voorwaarden bevatten die van toepassing zijn op Azure-functies die bèta, in preview of anderszins nog niet in algemene beschikbaarheid zijn vrijgegeven. Zie Azure HDInsight in AKS preview-informatievoor meer informatie over deze specifieke preview. Voor vragen of suggesties voor functies dient u een aanvraag in op AskHDInsight- met de details en volgt u ons voor meer updates over Azure HDInsight Community-.

Apache Flink is een framework en gedistribueerde verwerkingsengine voor toestand-afhankelijke berekeningen over onbegrensde en begrensde gegevensstromen. Flink is ontworpen om te worden uitgevoerd in alle algemene clusteromgevingen, berekeningen en stateful streamingtoepassingen op snelheid in het geheugen en op elke schaal uit te voeren. Toepassingen worden geparallelliseerd in mogelijk duizenden taken die in een cluster worden gedistribueerd en gelijktijdig worden uitgevoerd. Daarom kan een toepassing onbeperkte hoeveelheden vCPU's, hoofdgeheugen, schijf en netwerk-IO gebruiken. Bovendien onderhoudt Flink eenvoudig de status van grote toepassingen. Het asynchrone en incrementele controlepuntalgoritme zorgt voor minimale invloed op verwerkingslatenties en garandeert exact eenmaal statusconsistentie.

Apache Flink is een zeer schaalbare analyse-engine voor stroomverwerking.

Enkele van de belangrijkste functies die Flink biedt zijn:

Bewerkingen op gebonden en ongebonden streams
In geheugenprestaties
Mogelijkheid voor zowel streaming- als batchberekeningen
Lage latentie, bewerkingen met hoge doorvoer
Exacte eenmalige verwerking
Hoge beschikbaarheid
Toestand en fouttolerantie
Volledig compatibel met hadoop-ecosysteem
Geïntegreerde SQL-API's voor zowel stream als batch

Flink architectuurdiagram.

Waarom Apache Flink?

Apache Flink is een uitstekende keuze om veel verschillende soorten toepassingen te ontwikkelen en uit te voeren vanwege de uitgebreide functieset. De functies van Flink omvatten ondersteuning voor stream- en batchverwerking, geavanceerd toestandbeheer, semantiek voor gebeurtenistijdverwerking en exacte éénmaal consistentiegaranties voor toestand. Flink heeft geen enkel storingspunt. Flink is bewezen om te schalen naar duizenden kernen en terabytes aan toepassingsstatus, levert hoge doorvoer en lage latentie en zorgt voor een aantal van de meest veeleisende toepassingen voor stroomverwerking ter wereld.

Fraudedetectie: Flink kan worden gebruikt om frauduleuze transacties of activiteiten in realtime te detecteren door complexe regels en machine learning-modellen toe te passen op streaminggegevens.
Anomaliedetectie: Flink kan gebruikt worden om uitschieters of abnormale patronen in streaming gegevens te identificeren, zoals sensormetingen, netwerkverkeer of gebruikersgedrag.
waarschuwing op basis van regels: Flink kan worden gebruikt om waarschuwingen of meldingen te activeren op basis van vooraf gedefinieerde voorwaarden of drempelwaarden voor streaminggegevens, zoals temperatuur, druk of aandelenkoersen.
Bedrijfsprocesbewaking: Flink kan worden gebruikt om de status en prestaties van bedrijfsprocessen of werkstromen in realtime bij te houden en te analyseren, zoals orderafhandeling, levering of klantenservice.
webtoepassing (sociaal netwerk): Flink kan worden gebruikt voor webtoepassingen die realtime verwerking van gegevens die door gebruikers zijn gegenereerd vereisen, zoals berichten, vind-ik-leuks, opmerkingen of aanbevelingen.

Lees meer over veelvoorkomende use cases die worden beschreven in Apache Flink Use Cases

Apache Flink-clusters in HDInsight op AKS zijn een volledig beheerde service. De voordelen van het maken van een Flink-cluster in HDInsight op AKS worden hier vermeld.

Functie	Beschrijving
Gemakkelijk creëren	U kunt binnen enkele minuten een nieuw Flink-cluster maken in HDInsight met behulp van Azure Portal, Azure PowerShell of de SDK. Zie Aan de slag met Apache Flink-cluster in HDInsight op AKS.
Gebruiksgemak	Flink-clusters in HDInsight op AKS omvatten portal-gebaseerd configuratiebeheer en schaalvergroting. Naast deze api voor taakbeheer gebruikt u de REST API of Azure Portal voor taakbeheer.
REST API's	Flink-clusters in HDInsight op AKS bevatten Taakbeheer-API, een op REST API gebaseerde methode voor het indienen en bewaken van taken op afstand in Azure portal.
Implementatietype	Flink kan toepassingen uitvoeren in sessiemodus of toepassingsmodus. HdInsight op AKS ondersteunt momenteel alleen sessieclusters. U kunt meerdere Flink-taken uitvoeren op een sessiecluster. App-modus staat op de roadmap voor HDInsight in AKS-clusters
Ondersteuning voor Metastore	Flink-clusters in HDInsight op AKS kunnen catalogi ondersteunen met Hive Metastore in verschillende open bestandsindelingen door middel van externe controlepunten naar Azure Data Lake Storage Gen2.
Ondersteuning voor Azure Storage	Flink-clusters in HDInsight kunnen Azure Data Lake Storage Gen2 als bestandssink gebruiken. Zie Azure Data Lake Storage Gen2voor meer informatie over Data Lake Storage Gen2.
Integratie met Azure-services	Flink-cluster in HDInsight op AKS wordt geleverd met een integratie met Kafka, samen met Azure Event Hubs en Azure HDInsight-. U kunt streamingtoepassingen bouwen met behulp van Event Hubs of HDInsight.
Aanpassingsvermogen	Met HDInsight op AKS kunt u de Flink-clusterknooppunten schalen op basis van de planning met de functie Automatische schaalaanpassing. Zie Automatisch schalen van Azure HDInsight op AKS-clusters.
Statusback-end	HDInsight in AKS maakt gebruik van de RocksDB- als standaard StateBackend. RocksDB is een insluitbaar permanent sleutel-waardearchief voor snelle opslag.
Controleposten	Controlepunten zijn standaard ingeschakeld in HDInsight op AKS-clusters. Standaardinstellingen in HDInsight in AKS onderhouden de laatste vijf controlepunten in permanente opslag. Als uw taak mislukt, kan de taak opnieuw worden gestart vanaf het laatste controlepunt.
Incrementele controlepunten	RocksDB ondersteunt incrementele controlepunten. We raden het gebruik van incrementele controlepunten aan voor een grote staat, en u moet deze functie handmatig inschakelen. Als u een standaardwaarde instelt in uw `flink-conf.yaml: state.backend.incremental: true`, worden incrementele controlepunten ingeschakeld, tenzij de applicatie deze instelling in de code overschrijft. Deze stelling is standaard waar. U kunt deze waarde ook rechtstreeks configureren in de code (overschrijft de standaardconfiguratie) EmbeddedRocksDBStateBackend` backend = new `EmbeddedRocksDBStateBackend(true);. Standaard behouden we de laatste vijf controlepunten in de geconfigureerde controlepuntmap. Deze waarde kan worden gewijzigd door de configuratie in de sectie configuratiebeheer te wijzigen `state.checkpoints.num-retained: 5`

Apache Flink-clusters in HDInsight op AKS bevatten de volgende onderdelen. Ze zijn standaard beschikbaar op de clusters.

Raadpleeg de Roadmap over wat binnenkort beschikbaar is.

Apache Flink Job Management

Flink plant taken met drie gedistribueerde onderdelen, Job manager, Taakbeheer en JobClient, die zijn ingesteld in een Leader-Follower patroon.

Flink Job: Een Flink job of programma bestaat uit meerdere taken. Taken zijn de basiseenheid van uitvoering in Flink. Elke Flink-taak heeft meerdere exemplaren, afhankelijk van het niveau van parallelle uitvoering en elke instantie wordt uitgevoerd op een TaskManager.

Job manager: De Job manager fungeert als een planner en plant taken in op taakbeheerders.

Taakbeheerder: Taakbeheerders hebben een of meer slots om taken parallel uit te voeren.

Job Client: Job Client communiceert met de Job Manager om Flink-taken in te dienen

Flink Web UI: Flink bevat een webgebruikersinterface voor het controleren, bewaken en opsporen van fouten in actieve toepassingen.

Flink-procesdiagram waarin wordt getoond hoe de job, jobmanager, taakmanager en jobclient samenwerken.

Referentie

Apache Flink Website
Apache, Apache Kafka, Kafka, Apache Flink, Flink en bijbehorende opensource-projectnamen zijn handelsmerken van de Apache Software Foundation (ASF).

Delen via

Wat is Apache Flink® in Azure HDInsight op AKS? (Voorvertoning)

Waarom Apache Flink?

Apache Flink Job Management

Referentie

Aanvullende resources