Vytvoření definice úlohy Apache Spark v prostředcích infrastruktury
V tomto kurzu se dozvíte, jak vytvořit definici úlohy Sparku v Microsoft Fabric.
Požadavky
Než začnete, budete potřebovat:
- Účet tenanta Fabric s aktivním předplatným. Vytvoření účtu zdarma
Tip
Pokud chcete spustit položku definice úlohy Sparku, musíte mít hlavní definiční soubor a výchozí kontext lakehouse. Pokud nemáte jezerní dům, můžete ho vytvořit pomocí kroků v části Vytvoření jezera.
Vytvoření definice úlohy Sparku
Proces vytváření definic úloh Sparku je rychlý a jednoduchý; existuje několik způsobů, jak začít.
Možnosti vytvoření definice úlohy Sparku
Proces vytváření můžete začít několika způsoby:
Domovská stránka přípravy dat: Definici úlohy Sparku můžete snadno vytvořit prostřednictvím karty Definice úlohy Sparku v části Nový na domovské stránce.
Zobrazení pracovního prostoru: Pomocí rozevírací nabídky Nový můžete také vytvořit definici úlohy Sparku prostřednictvím pracovního prostoru v Datoví technici.
Vytvoření zobrazení: Dalším vstupním bodem pro vytvoření definice úlohy Sparku je stránka Vytvořit v části Datoví technici ing.
Při vytváření musíte definici úlohy Sparku pojmenovat. Název musí být v aktuálním pracovním prostoru jedinečný. Nová definice úlohy Sparku se vytvoří v aktuálním pracovním prostoru.
Vytvoření definice úlohy Sparku pro PySpark (Python)
Vytvoření definice úlohy Spark pro PySpark:
Stáhněte si ukázkový soubor Parquet yellow_tripdata_2022-01.parquet a nahrajte ho do části soubory jezera.
Vytvořte novou definici úlohy Sparku.
V rozevíracím seznamu Jazyk vyberte PySpark (Python).
Stáhněte si ukázku createTablefromParquet.py a nahrajte ji jako hlavní definiční soubor. Hlavní definiční soubor (úloha). Main) je soubor, který obsahuje logiku aplikace a je povinný ke spuštění úlohy Spark. Pro každou definici úlohy Sparku můžete nahrát jenom jeden hlavní definiční soubor.
Hlavní definiční soubor můžete nahrát z místní plochy nebo můžete nahrát z existující služby Azure Data Lake Storage (ADLS) Gen2 tak, že poskytnete úplnou cestu k souboru ABFSS. Například
abfss://your-storage-account-name.dfs.core.windows.net/your-file-path
.Nahrajte referenční soubory jako .py soubory. Referenční soubory jsou moduly Pythonu, které jsou importovány hlavním definičním souborem. Stejně jako hlavní definiční soubor můžete nahrát z plochy nebo z existujícího souboru ADLS Gen2. Podporuje se více referenčních souborů.
Tip
Pokud používáte cestu ADLS Gen2, abyste měli jistotu, že je soubor přístupný, musíte udělit uživatelskému účtu, který spustí úlohu, správné oprávnění k účtu úložiště. Doporučujeme postupovat dvěma různými způsoby:
- Přiřaďte uživatelskému účtu roli Přispěvatel pro účet úložiště.
- Udělení oprávnění ke čtení a spuštění pro uživatelský účet souboru prostřednictvím seznamu řízení přístupu ADLS Gen2 (ACL).
Při ručním spuštění se ke spuštění úlohy použije účet aktuálního přihlašovacího uživatele.
V případě potřeby zadejte argumenty příkazového řádku pro úlohu. K oddělení argumentů použijte mezeru jako rozdělovač.
Přidejte do úlohy odkaz na lakehouse. Musíte mít k úloze přidaný alespoň jeden odkaz na lakehouse. Toto jezero je výchozím kontextem jezera pro úlohu.
Podporuje se více odkazů na lakehouse. Na stránce Nastavení Sparku vyhledejte jiný než výchozí název jezera a úplnou adresu URL OneLake.
Vytvoření definice úlohy Sparku pro Scala/Java
Vytvoření definice úlohy Sparku pro Scala/Java:
Vytvořte novou definici úlohy Sparku.
V rozevíracím seznamu Jazyk vyberte Spark(Scala/Java).
Nahrajte hlavní definiční soubor jako soubor .jar . Hlavní definiční soubor je soubor, který obsahuje logiku aplikace této úlohy a je povinný ke spuštění úlohy Spark. Pro každou definici úlohy Sparku můžete nahrát jenom jeden hlavní definiční soubor. Zadejte název třídy Main.
Nahrajte referenční soubory jako soubory .jar . Referenční soubory jsou soubory, na které odkazuje nebo importuje hlavní definiční soubor.
V případě potřeby zadejte argumenty příkazového řádku pro úlohu.
Přidejte do úlohy odkaz na lakehouse. Musíte mít k úloze přidaný alespoň jeden odkaz na lakehouse. Toto jezero je výchozím kontextem jezera pro úlohu.
Vytvoření definice úlohy Sparku pro R
Vytvoření definice úlohy Sparku pro SparkR(R):
Vytvořte novou definici úlohy Sparku.
V rozevíracím seznamu Jazyk vyberte SparkR(R).
Nahrajte hlavní definiční soubor jako . R soubor. Hlavní definiční soubor je soubor, který obsahuje logiku aplikace této úlohy a je povinný ke spuštění úlohy Spark. Pro každou definici úlohy Sparku můžete nahrát jenom jeden hlavní definiční soubor.
Nahrajte referenční soubory jako . Soubory R . Referenční soubory jsou soubory, na které odkazuje nebo importuje hlavní definiční soubor.
V případě potřeby zadejte argumenty příkazového řádku pro úlohu.
Přidejte do úlohy odkaz na lakehouse. Musíte mít k úloze přidaný alespoň jeden odkaz na lakehouse. Toto jezero je výchozím kontextem jezera pro úlohu.
Poznámka:
Definice úlohy Sparku se vytvoří v aktuálním pracovním prostoru.
Možnosti přizpůsobení definic úloh Sparku
Existuje několik možností, jak dále přizpůsobit spouštění definic úloh Sparku.
- Spark Compute: Na kartě Výpočty Sparku uvidíte verzi modulu runtime, což je verze Sparku, která se použije ke spuštění úlohy. Můžete se také podívat na nastavení konfigurace Sparku, která se použijí ke spuštění úlohy. Nastavení konfigurace Sparku můžete přizpůsobit kliknutím na tlačítko Přidat .
Optimalizace: Na kartě Optimalizace můžete povolit a nastavit zásady opakování pro úlohu. Pokud je tato úloha povolená, opakuje se, pokud selže. Můžete také nastavit maximální počet opakování a interval mezi opakovanými pokusy. U každého pokusu o opakování se úloha restartuje. Ujistěte se, že je úloha idempotentní.