Delen via


Quickstart: Een beheerd Apache Spark-cluster implementeren met Azure Databricks

Azure Managed Instance voor Apache Cassandra biedt geautomatiseerde implementatie- en schaalbewerkingen voor beheerde opensource Apache Cassandra-datacenters. Deze functie versnelt hybride scenario's en vermindert doorlopend onderhoud.

In deze quickstart ziet u hoe u Azure Portal gebruikt om een volledig beheerd Apache Spark-cluster te maken in het virtuele Azure-netwerk van uw Azure Managed Instance voor Apache Cassandra-cluster. U maakt het Spark-cluster in Azure Databricks. Later kunt u notebooks maken of koppelen aan het cluster, gegevens uit verschillende gegevensbronnen lezen en inzichten analyseren.

U kunt ook meer informatie vinden met gedetailleerde instructies over het implementeren van Azure Databricks in uw Azure Virtual Network (Virtual Network Injection).

Vereisten

Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.

Een Azure Databricks-cluster maken

Volg deze stappen om een Azure Databricks-cluster te maken in een virtueel netwerk met azure Managed Instance voor Apache Cassandra:

  1. Meld u aan bij het Azure-portaal.

  2. Zoek resourcegroepen in het linkernavigatiedeelvenster. Navigeer naar uw resourcegroep die het virtuele netwerk bevat waarin uw beheerde exemplaar is geïmplementeerd.

  3. Open de resource van het virtuele netwerk en noteer de adresruimte:

    Schermopname toont waar u de adresruimte van uw virtuele netwerk kunt ophalen.

  4. Selecteer In de resourcegroep Toevoegen en zoeken naar Azure Databricks in het zoekveld:

    Schermopname van een zoekopdracht naar Azure Databricks.

  5. Selecteer Maken om een Azure Databricks-account te maken:

    Schermopname van azure Databricks-aanbieding met de knop Maken geselecteerd.

  6. Voer de volgende waarden in:

    • Werkruimtenaam Geef een naam op voor uw Databricks-werkruimte.
    • Regio Zorg ervoor dat u dezelfde regio selecteert als uw virtuele netwerk.
    • De prijscategorie Kiezen tussen Standard, Premium of Proefversie. Bekijk de pagina Prijzen voor Databricks voor meer informatie over deze categorieën.

    Schermopname van een dialoogvenster waarin u de werkruimtenaam, regio en prijscategorie voor het Databricks-account kunt invoeren.

  7. Selecteer vervolgens het tabblad Netwerken en voer de volgende gegevens in:

    • Implementeer de Azure Databricks-werkruimte in uw virtuele netwerk (VNet) Selecteer Ja.
    • Virtual Network In de vervolgkeuzelijst kiest u het virtuele netwerk waarin uw beheerde exemplaar zich bevindt.
    • Naam van openbaar subnet Voer een naam in voor het openbare subnet.
    • Het CIDR-bereik van het openbare subnet voer een IP-bereik in voor het openbare subnet.
    • Naam van privésubnet Voer een naam in voor het privésubnet.
    • CIDR-bereik privésubnet Voer een IP-bereik in voor het privésubnet.

    Om bereikconflicten te voorkomen, moet u ervoor zorgen dat u hogere bereiken selecteert. Gebruik zo nodig een visualsubnetcalculator om de bereiken te verdelen:

    Schermopname van de Visual Subnet Calculator met twee gemarkeerde identieke netwerkadressen.

    In de volgende schermopname ziet u voorbeelddetails in het deelvenster Netwerken:

    Schermopname van de opgegeven openbare en persoonlijke subnetnamen.

  8. Selecteer Controleren en maken en vervolgens Maken om de werkruimte te implementeren.

  9. Start de werkruimte nadat deze is gemaakt.

  10. U wordt omgeleid naar de Azure Databricks-portal. Selecteer in de portal Nieuw cluster.

  11. Accepteer in het deelvenster Nieuw cluster de standaardwaarden voor alle andere velden dan de volgende velden:

    • Clusternaam Voer een naam in voor het cluster.
    • Databricks Runtime-versie We raden u aan Databricks Runtime versie 7.5 of hoger te selecteren voor ondersteuning voor Spark 3.x.

    Schermopname van het dialoogvenster Nieuw cluster met een Databricks Runtime-versie geselecteerd.

  12. Vouw Geavanceerde opties uit en voeg de volgende configuratie toe. Zorg ervoor dat u de IP-adressen en referenties van het knooppunt vervangt:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Voeg de Apache Spark Cassandra Connector-bibliotheek toe aan uw cluster om verbinding te maken met zowel systeemeigen als Azure Cosmos DB Cassandra-eindpunten. Selecteer In uw cluster Bibliotheken>installeren nieuwe>Maven en voeg vervolgens Maven-coördinaten toe.com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0

Schermopname van het zoeken naar Maven-pakketten in Databricks.

Resources opschonen

Als u dit beheerde exemplaarcluster niet meer gaat gebruiken, verwijdert u het met de volgende stappen:

  1. Selecteer resourcegroepen in het linkermenu van Azure Portal.
  2. Selecteer de resourcegroep die u eerder voor deze quickstart hebt gemaakt uit de lijst.
  3. Selecteer Resourcegroep verwijderen in het deelvenster Overzicht van de resourcegroep.
  4. Selecteer in het volgende venster de naam van de resourcegroep die u wilt verwijderen en selecteer vervolgens Verwijderen.

Volgende stappen

In deze quickstart hebt u geleerd hoe u een volledig beheerd Apache Spark-cluster maakt in het virtuele netwerk van uw Azure Managed Instance voor Apache Cassandra-cluster. Vervolgens leert u hoe u de cluster- en datacenterbronnen beheert: