Wat is Apache Flink® in Azure HDInsight op AKS? (Voorvertoning)
Belangrijk
Azure HDInsight op AKS is op 31 januari 2025 buiten gebruik gesteld. Kom meer te weten met deze aankondiging.
U moet uw workloads migreren naar Microsoft Fabric- of een gelijkwaardig Azure-product om plotselinge beëindiging van uw workloads te voorkomen.
Belangrijk
Deze functie is momenteel beschikbaar als preview-versie. De aanvullende gebruiksvoorwaarden voor Microsoft Azure Previews meer juridische voorwaarden bevatten die van toepassing zijn op Azure-functies die bèta, in preview of anderszins nog niet in algemene beschikbaarheid zijn vrijgegeven. Zie Azure HDInsight in AKS preview-informatievoor meer informatie over deze specifieke preview. Voor vragen of suggesties voor functies dient u een aanvraag in op AskHDInsight- met de details en volgt u ons voor meer updates over Azure HDInsight Community-.
Apache Flink is een framework en gedistribueerde verwerkingsengine voor toestand-afhankelijke berekeningen over onbegrensde en begrensde gegevensstromen. Flink is ontworpen om te worden uitgevoerd in alle algemene clusteromgevingen, berekeningen en stateful streamingtoepassingen op snelheid in het geheugen en op elke schaal uit te voeren. Toepassingen worden geparallelliseerd in mogelijk duizenden taken die in een cluster worden gedistribueerd en gelijktijdig worden uitgevoerd. Daarom kan een toepassing onbeperkte hoeveelheden vCPU's, hoofdgeheugen, schijf en netwerk-IO gebruiken. Bovendien onderhoudt Flink eenvoudig de status van grote toepassingen. Het asynchrone en incrementele controlepuntalgoritme zorgt voor minimale invloed op verwerkingslatenties en garandeert exact eenmaal statusconsistentie.
Apache Flink is een zeer schaalbare analyse-engine voor stroomverwerking.
Enkele van de belangrijkste functies die Flink biedt zijn:
- Bewerkingen op gebonden en ongebonden streams
- In geheugenprestaties
- Mogelijkheid voor zowel streaming- als batchberekeningen
- Lage latentie, bewerkingen met hoge doorvoer
- Exacte eenmalige verwerking
- Hoge beschikbaarheid
- Toestand en fouttolerantie
- Volledig compatibel met hadoop-ecosysteem
- Geïntegreerde SQL-API's voor zowel stream als batch
Waarom Apache Flink?
Apache Flink is een uitstekende keuze om veel verschillende soorten toepassingen te ontwikkelen en uit te voeren vanwege de uitgebreide functieset. De functies van Flink omvatten ondersteuning voor stream- en batchverwerking, geavanceerd toestandbeheer, semantiek voor gebeurtenistijdverwerking en exacte éénmaal consistentiegaranties voor toestand. Flink heeft geen enkel storingspunt. Flink is bewezen om te schalen naar duizenden kernen en terabytes aan toepassingsstatus, levert hoge doorvoer en lage latentie en zorgt voor een aantal van de meest veeleisende toepassingen voor stroomverwerking ter wereld.
- Fraudedetectie: Flink kan worden gebruikt om frauduleuze transacties of activiteiten in realtime te detecteren door complexe regels en machine learning-modellen toe te passen op streaminggegevens.
- Anomaliedetectie: Flink kan gebruikt worden om uitschieters of abnormale patronen in streaming gegevens te identificeren, zoals sensormetingen, netwerkverkeer of gebruikersgedrag.
- waarschuwing op basis van regels: Flink kan worden gebruikt om waarschuwingen of meldingen te activeren op basis van vooraf gedefinieerde voorwaarden of drempelwaarden voor streaminggegevens, zoals temperatuur, druk of aandelenkoersen.
- Bedrijfsprocesbewaking: Flink kan worden gebruikt om de status en prestaties van bedrijfsprocessen of werkstromen in realtime bij te houden en te analyseren, zoals orderafhandeling, levering of klantenservice.
- webtoepassing (sociaal netwerk): Flink kan worden gebruikt voor webtoepassingen die realtime verwerking van gegevens die door gebruikers zijn gegenereerd vereisen, zoals berichten, vind-ik-leuks, opmerkingen of aanbevelingen.
Lees meer over veelvoorkomende use cases die worden beschreven in Apache Flink Use Cases
Apache Flink-clusters in HDInsight op AKS zijn een volledig beheerde service. De voordelen van het maken van een Flink-cluster in HDInsight op AKS worden hier vermeld.
Functie | Beschrijving |
---|---|
Gemakkelijk creëren | U kunt binnen enkele minuten een nieuw Flink-cluster maken in HDInsight met behulp van Azure Portal, Azure PowerShell of de SDK. Zie Aan de slag met Apache Flink-cluster in HDInsight op AKS. |
Gebruiksgemak | Flink-clusters in HDInsight op AKS omvatten portal-gebaseerd configuratiebeheer en schaalvergroting. Naast deze api voor taakbeheer gebruikt u de REST API of Azure Portal voor taakbeheer. |
REST API's | Flink-clusters in HDInsight op AKS bevatten Taakbeheer-API, een op REST API gebaseerde methode voor het indienen en bewaken van taken op afstand in Azure portal. |
Implementatietype | Flink kan toepassingen uitvoeren in sessiemodus of toepassingsmodus. HdInsight op AKS ondersteunt momenteel alleen sessieclusters. U kunt meerdere Flink-taken uitvoeren op een sessiecluster. App-modus staat op de roadmap voor HDInsight in AKS-clusters |
Ondersteuning voor Metastore | Flink-clusters in HDInsight op AKS kunnen catalogi ondersteunen met Hive Metastore in verschillende open bestandsindelingen door middel van externe controlepunten naar Azure Data Lake Storage Gen2. |
Ondersteuning voor Azure Storage | Flink-clusters in HDInsight kunnen Azure Data Lake Storage Gen2 als bestandssink gebruiken. Zie Azure Data Lake Storage Gen2voor meer informatie over Data Lake Storage Gen2. |
Integratie met Azure-services | Flink-cluster in HDInsight op AKS wordt geleverd met een integratie met Kafka, samen met Azure Event Hubs en Azure HDInsight-. U kunt streamingtoepassingen bouwen met behulp van Event Hubs of HDInsight. |
Aanpassingsvermogen | Met HDInsight op AKS kunt u de Flink-clusterknooppunten schalen op basis van de planning met de functie Automatische schaalaanpassing. Zie Automatisch schalen van Azure HDInsight op AKS-clusters. |
Statusback-end | HDInsight in AKS maakt gebruik van de RocksDB- als standaard StateBackend. RocksDB is een insluitbaar permanent sleutel-waardearchief voor snelle opslag. |
Controleposten | Controlepunten zijn standaard ingeschakeld in HDInsight op AKS-clusters. Standaardinstellingen in HDInsight in AKS onderhouden de laatste vijf controlepunten in permanente opslag. Als uw taak mislukt, kan de taak opnieuw worden gestart vanaf het laatste controlepunt. |
Incrementele controlepunten | RocksDB ondersteunt incrementele controlepunten. We raden het gebruik van incrementele controlepunten aan voor een grote staat, en u moet deze functie handmatig inschakelen. Als u een standaardwaarde instelt in uw flink-conf.yaml: state.backend.incremental: true , worden incrementele controlepunten ingeschakeld, tenzij de applicatie deze instelling in de code overschrijft. Deze stelling is standaard waar. U kunt deze waarde ook rechtstreeks configureren in de code (overschrijft de standaardconfiguratie) EmbeddedRocksDBStateBackend` backend = new `EmbeddedRocksDBStateBackend(true); . Standaard behouden we de laatste vijf controlepunten in de geconfigureerde controlepuntmap. Deze waarde kan worden gewijzigd door de configuratie in de sectie configuratiebeheer te wijzigen state.checkpoints.num-retained: 5 |
Apache Flink-clusters in HDInsight op AKS bevatten de volgende onderdelen. Ze zijn standaard beschikbaar op de clusters.
Raadpleeg de Roadmap over wat binnenkort beschikbaar is.
Apache Flink Job Management
Flink plant taken met drie gedistribueerde onderdelen, Job manager, Taakbeheer en JobClient, die zijn ingesteld in een Leader-Follower patroon.
Flink Job: Een Flink job of programma bestaat uit meerdere taken. Taken zijn de basiseenheid van uitvoering in Flink. Elke Flink-taak heeft meerdere exemplaren, afhankelijk van het niveau van parallelle uitvoering en elke instantie wordt uitgevoerd op een TaskManager.
Job manager: De Job manager fungeert als een planner en plant taken in op taakbeheerders.
Taakbeheerder: Taakbeheerders hebben een of meer slots om taken parallel uit te voeren.
Job Client: Job Client communiceert met de Job Manager om Flink-taken in te dienen
Flink Web UI: Flink bevat een webgebruikersinterface voor het controleren, bewaken en opsporen van fouten in actieve toepassingen.
Referentie
- Apache Flink Website
- Apache, Apache Kafka, Kafka, Apache Flink, Flink en bijbehorende opensource-projectnamen zijn handelsmerken van de Apache Software Foundation (ASF).