Dela via


Snabbstart: Skapa en serverlös Apache Spark-pool med Synapse Studio

Azure Synapse Analytics erbjuder olika analysmotorer som hjälper dig att mata in, transformera, modellera, analysera och hantera dina data. Apache Spark-poolen erbjuder funktioner för stordatabearbetning med öppen källkod. När du har skapat en Apache Spark-pool på din Synapse-arbetsyta kan data läsas in, modelleras, bearbetas och hanteras för att få insikter.

Den här snabbstarten beskriver stegen för att skapa en Apache Spark-pool på en Synapse-arbetsyta med hjälp av Synapse Studio.

Viktigt!

Faktureringen för Spark-instanser beräknas per minut, oavsett om du använder dem eller inte. Se till att stänga av Spark-instansen när du har använt den eller ange en kort tidsgräns. Mer information finns i avsnittet Rensa resurser i den här artikeln.

Kommentar

Synapse Studio fortsätter att stödja terraform- eller bicep-baserade konfigurationsfiler.

Om du inte har någon Azure-prenumeration skapar du ett kostnadsfritt konto innan du börjar.

Förutsättningar

  • Du behöver en Azure-prenumeration. Skapa ett kostnadsfritt Azure-konto om det behövs
  • Du kommer att använda Synapse-arbetsytan.

Logga in på Azure-portalen

Logga in på Azure-portalen

  1. Gå till Synapse-arbetsytan där Apache Spark-poolen skapas genom att skriva tjänstnamnet (eller resursnamnet direkt) i sökfältet. Skärmbild från Azure Portal i sökfältet med Synapse-arbetsytor inskrivna.

  2. I listan över arbetsytor skriver du namnet (eller en del av namnet) på arbetsytan som ska öppnas. I det här exemplet använder vi en arbetsyta med namnet contosoanalytics. Skärmbild från Azure Portal av listan över Synapse-arbetsytor som filtrerats för att visa de som innehåller namnet Contoso.

Starta Synapse Studio

I översikten över arbetsytan väljer du webb-URL:en för arbetsytan för att öppna Synapse Studio.

Skärmbild från Azure Portal av en Översikt över Synapse-arbetsytan med Starta Synapse Studio markerat.

Skapa Apache Spark-poolen i Synapse Studio

Viktigt!

Azure Synapse Runtime för Apache Spark 2.4 har blivit inaktuell och stöds officiellt inte sedan september 2023. Med tanke på att Spark 3.1 och Spark 3.2 också har upphört med supporten rekommenderar vi att kunderna migrerar till Spark 3.3.

  1. På synapse Studio-startsidan går du till hanteringshubben i det vänstra navigeringsfältet genom att välja ikonen Hantera . Skärmbild från Azure Portal på synapse Studio-startsidan med avsnittet Hanteringshubb markerat.

  2. I hanteringshubben går du till avsnittet Apache Spark-pooler för att se den aktuella listan över Apache Spark-pooler som är tillgängliga på arbetsytan. Skärmbild från Azure Portal av Synapse Studio-hanteringshubben med Apache Spark-poolnavigering vald.

  3. Välj + Ny så visas den nya guiden skapa Apache Spark-pool.

  4. Ange följande information på fliken Grundläggande :

    Inställning Föreslaget värde Beskrivning
    Namn på Apache Spark-pool Ett giltigt poolnamn, till exempel contosospark Det här är namnet som Apache Spark-poolen kommer att ha.
    Nodstorlek Liten (4 vCPU/32 GB) Ange den minsta storleken för att minska kostnaderna för den här snabbstarten
    Automatisk skalning Inaktiverad Vi behöver inte autoskalning i den här snabbstarten
    Antal noder 8 Använd en liten storlek för att begränsa kostnaderna i den här snabbstarten
    Dynamiskt allokera köre Inaktiverad Den här inställningen mappar till den dynamiska allokeringsegenskapen i Spark-konfigurationen för Spark Application Executors-allokering. Vi behöver inte autoskalning i den här snabbstarten.

    Skärmbild från Azure Portal av den nya Apache Spark-poolen Basics for Synapse Studio.

    Viktigt!

    Det finns specifika begränsningar för de namn som Apache Spark-pooler kan använda. Namn får endast innehålla bokstäver eller siffror, måste innehålla högst 15 tecken, måste börja med en bokstav, inte innehålla reserverade ord och vara unika på arbetsytan.

  5. På nästa flik, Ytterligare inställningar, lämnar du alla inställningar som standard.

  6. Välj Taggar. Överväg att använda Azure-taggar. Till exempel taggen "Ägare" eller "CreatedBy" för att identifiera vem som skapade resursen och taggen "Miljö" för att identifiera om den här resursen finns i Produktion, Utveckling osv. Mer information finns i Utveckla din namngivnings- och taggningsstrategi för Azure-resurser. När du är klar väljer du Granska + skapa.

  7. På fliken Granska + skapa kontrollerar du att informationen ser korrekt ut baserat på vad som angavs tidigare och trycker på Skapa.

    Skärmbild från Azure Portal av skapa Synapse Studio ny Apache Spark-pool.

  8. Apache Spark-poolen startar etableringsprocessen.

  9. När etableringen är klar visas den nya Apache Spark-poolen i listan.

    Skärmbild från Azure Portal i Synapse Studios nya Apache Spark-poollista.

Rensa Apache Spark-poolresurser med Synapse Studio

Följande steg tar bort Apache Spark-poolen från arbetsytan med Hjälp av Synapse Studio.

Varning

Om du tar bort en Spark-pool tas analysmotorn bort från arbetsytan. Det går inte längre att ansluta till poolen, och alla frågor, pipelines och notebook-filer som använder den här Spark-poolen fungerar inte längre.

Om du vill ta bort Apache Spark-poolen gör du följande:

  1. Gå till Apache Spark-poolerna i hanteringshubben i Synapse Studio.

  2. Välj ellipsen bredvid Apache-poolen som ska tas bort (i det här fallet contosospark) för att visa kommandona för Apache Spark-poolen.

    Skärmbild från Azure Portal av en lista över Apache Spark-pooler med den nyligen skapade poolen vald.

  3. Välj Ta bort.

  4. Bekräfta borttagningen och tryck på knappen Ta bort .

  5. När processen är klar visas inte längre Apache Spark-poolen i arbetsytans resurser.