Wat is een Apache Spark-taakdefinitie?
Een Apache Spark-taakdefinitie is een Microsoft Fabric-code-item waarmee u batch-/streamingtaken kunt verzenden naar Spark-clusters. Door de binaire bestanden te uploaden vanuit de compilatie-uitvoer van verschillende talen (bijvoorbeeld .jar van Java), kunt u verschillende transformatielogica toepassen op de gegevens die worden gehost op een lakehouse. Naast het binaire bestand kunt u het gedrag van de taak verder aanpassen door meer bibliotheken en opdrachtregelargumenten te uploaden.
Als u een Spark-taakdefinitie wilt uitvoeren, moet er ten minste één lakehouse aan zijn gekoppeld. Deze standaard lakehouse-context fungeert als het standaardbestandssysteem voor Spark Runtime. Voor spark-code die gebruikmaakt van een relatief pad naar het lezen/schrijven van gegevens, worden de gegevens geleverd vanuit het standaard lakehouse.
Tip
Als u een Spark-taakdefinitie-item wilt uitvoeren, moet u een hoofddefinitiebestand en een standaard lakehouse-context hebben. Als u geen lakehouse hebt, maakt u er een door de stappen te volgen in Een lakehouse maken.