Quickstart: Een beheerd Apache Spark-cluster implementeren met Azure Databricks

Artikel
08/15/2024

Azure Managed Instance voor Apache Cassandra biedt geautomatiseerde implementatie- en schaalbewerkingen voor beheerde opensource Apache Cassandra-datacenters. Deze functie versnelt hybride scenario's en vermindert doorlopend onderhoud.

In deze quickstart ziet u hoe u Azure Portal gebruikt om een volledig beheerd Apache Spark-cluster te maken in het virtuele Azure-netwerk van uw Azure Managed Instance voor Apache Cassandra-cluster. U maakt het Spark-cluster in Azure Databricks. Later kunt u notebooks maken of koppelen aan het cluster, gegevens uit verschillende gegevensbronnen lezen en inzichten analyseren.

U kunt ook meer informatie vinden met gedetailleerde instructies over het implementeren van Azure Databricks in uw Azure Virtual Network (Virtual Network Injection).

Vereisten

Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.

Een Azure Databricks-cluster maken

Volg deze stappen om een Azure Databricks-cluster te maken in een virtueel netwerk met azure Managed Instance voor Apache Cassandra:

Meld u aan bij het Azure-portaal.
Zoek resourcegroepen in het linkernavigatiedeelvenster. Navigeer naar uw resourcegroep die het virtuele netwerk bevat waarin uw beheerde exemplaar is geïmplementeerd.
Open de resource van het virtuele netwerk en noteer de adresruimte:
Selecteer In de resourcegroep Toevoegen en zoeken naar Azure Databricks in het zoekveld:
Selecteer Maken om een Azure Databricks-account te maken:
Voer de volgende waarden in:
- Werkruimtenaam Geef een naam op voor uw Databricks-werkruimte.
- Regio Zorg ervoor dat u dezelfde regio selecteert als uw virtuele netwerk.
- De prijscategorie Kiezen tussen Standard, Premium of Proefversie. Bekijk de pagina Prijzen voor Databricks voor meer informatie over deze categorieën.
Selecteer vervolgens het tabblad Netwerken en voer de volgende gegevens in:
- Implementeer de Azure Databricks-werkruimte in uw virtuele netwerk (VNet) Selecteer Ja.
- Virtual Network In de vervolgkeuzelijst kiest u het virtuele netwerk waarin uw beheerde exemplaar zich bevindt.
- Naam van openbaar subnet Voer een naam in voor het openbare subnet.
- Het CIDR-bereik van het openbare subnet voer een IP-bereik in voor het openbare subnet.
- Naam van privésubnet Voer een naam in voor het privésubnet.
- CIDR-bereik privésubnet Voer een IP-bereik in voor het privésubnet.
Om bereikconflicten te voorkomen, moet u ervoor zorgen dat u hogere bereiken selecteert. Gebruik zo nodig een visualsubnetcalculator om de bereiken te verdelen:

In de volgende schermopname ziet u voorbeelddetails in het deelvenster Netwerken:
Selecteer Controleren en maken en vervolgens Maken om de werkruimte te implementeren.
Start de werkruimte nadat deze is gemaakt.
U wordt omgeleid naar de Azure Databricks-portal. Selecteer in de portal Nieuw cluster.
Accepteer in het deelvenster Nieuw cluster de standaardwaarden voor alle andere velden dan de volgende velden:
- Clusternaam Voer een naam in voor het cluster.
- Databricks Runtime-versie We raden u aan Databricks Runtime versie 7.5 of hoger te selecteren voor ondersteuning voor Spark 3.x.

Vouw Geavanceerde opties uit en voeg de volgende configuratie toe. Zorg ervoor dat u de IP-adressen en referenties van het knooppunt vervangt:

spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
spark.cassandra.auth.password cassandra
spark.cassandra.connection.port 9042
spark.cassandra.auth.username cassandra
spark.cassandra.connection.ssl.enabled true

Voeg de Apache Spark Cassandra Connector-bibliotheek toe aan uw cluster om verbinding te maken met zowel systeemeigen als Azure Cosmos DB Cassandra-eindpunten. Selecteer In uw cluster Bibliotheken>installeren nieuwe>Maven en voeg vervolgens Maven-coördinaten toe.com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0

Resources opschonen

Als u dit beheerde exemplaarcluster niet meer gaat gebruiken, verwijdert u het met de volgende stappen:

Selecteer resourcegroepen in het linkermenu van Azure Portal.
Selecteer de resourcegroep die u eerder voor deze quickstart hebt gemaakt uit de lijst.
Selecteer Resourcegroep verwijderen in het deelvenster Overzicht van de resourcegroep.
Selecteer in het volgende venster de naam van de resourcegroep die u wilt verwijderen en selecteer vervolgens Verwijderen.

Volgende stappen

In deze quickstart hebt u geleerd hoe u een volledig beheerd Apache Spark-cluster maakt in het virtuele netwerk van uw Azure Managed Instance voor Apache Cassandra-cluster. Vervolgens leert u hoe u de cluster- en datacenterbronnen beheert:

Azure Managed Instance beheren voor Apache Cassandra-resources met behulp van Azure CLI

Delen via

Quickstart: Een beheerd Apache Spark-cluster implementeren met Azure Databricks

Vereisten

Een Azure Databricks-cluster maken

Resources opschonen

Volgende stappen

Feedback

Aanvullende resources