Delen via


Wat is Apache Spark™ op HDInsight op AKS? (Preview)

Belangrijk

Azure HDInsight op AKS is op 31 januari 2025 buiten gebruik gesteld. Meer te weten komen met deze aankondiging .

U moet uw workloads migreren naar Microsoft Fabric- of een gelijkwaardig Azure-product om plotselinge beëindiging van uw workloads te voorkomen.

Belangrijk

Deze functie is momenteel beschikbaar als preview-versie. De aanvullende gebruiksvoorwaarden voor Microsoft Azure Previews meer juridische voorwaarden bevatten die van toepassing zijn op Azure-functies die bèta, in preview of anderszins nog niet in algemene beschikbaarheid zijn vrijgegeven. Voor meer informatie over deze specifieke preview, zie Azure HDInsight op AKS preview-informatie. Voor vragen of suggesties voor functies dient u een aanvraag in op AskHDInsight- met de details en volgt u ons voor meer updates over Azure HDInsight Community-.

Apache Spark™ is een framework voor parallelle verwerking dat ondersteuning biedt voor in-memory verwerking om de prestaties van analysetoepassingen voor big data te verbeteren.

Apache Spark™ biedt primitieven voor clustercomputing in het geheugen. Een Spark-taak kan gegevens in het geheugen laden en in de cache opslaan en er herhaaldelijk query's op uitvoeren. In-memory computing is sneller dan op schijven gebaseerde toepassingen, zoals Hadoop, die gegevens deelt via Hadoop Distributed File System (HDFS). Met Apache Spark kunt u met de programmeertalen Scala en Python gedistribueerde gegevenssets bewerken, zoals lokale verzamelingen. Het is niet nodig om alles te structureren als map- en reduce-bewerkingen.

diagram met een Spark-overzicht in HDInsight in AKS.

Apache Spark-cluster met HDInsight op AKS

Azure HDInsight is een beheerde opensource-analyseservice voor ondernemingen met een volledig spectrum.

Apache Spark™ in Azure HDInsight op AKS is de beheerde Spark-service in Microsoft Azure. Met Apache Spark in Azure HDInsight in AKS kunt u uw gegevens allemaal in Azure opslaan en verwerken. Spark-clusters in HDInsight zijn compatibel met of Azure Data Lake Storage Gen2. Hiermee kunt u Spark-verwerking toepassen op uw bestaande gegevensarchieven.

Het Apache Spark-framework voor HDInsight in AKS maakt snelle gegevensanalyse en clustercomputing mogelijk met behulp van in-memory verwerking. Met Jupyter Notebook kunt u communiceren met uw gegevens, code combineren met markdown-tekst en eenvoudige visualisaties uitvoeren.

Apache Spark in AKS in HDInsight bestaat uit meerdere onderdelen als pods.

Cluster Controllers

Clustercontrollers zijn verantwoordelijk voor het installeren en beheren van de respectieve service. Verschillende controllers worden geïnstalleerd en beheerd in een Spark-cluster.

Apache Spark-serviceonderdelen

Zookeeper-service: Een Zookeeper-cluster met drie knooppunten fungeert als gedistribueerde coördinator of opslag met hoge beschikbaarheid voor andere services.

Yarn Service: In het Hadoop Yarn-cluster worden Spark-taken gepland als Yarn-toepassingen.

Clientinterfaces: Apache Spark-clusters in HDInsight op AKS bieden verschillende client-interfaces. Livy Server, Jupyter Notebook, Spark History Server, biedt Spark-services aan HDInsight op AKS-gebruikers.

Referentie