Sdílet prostřednictvím


Transformace dat spuštěním definice úlohy Synapse Spark

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Aktivita definice úlohy Azure Synapse Spark v kanálu spouští definici úlohy Synapse Spark v pracovním prostoru Azure Synapse Analytics. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit.

Nastavení plátna definice úlohy Apache Sparku

Pokud chcete v kanálu použít aktivitu definice úlohy Sparku pro Synapse, proveďte následující kroky:

Obecné nastavení

  1. Vyhledejte definici úlohy Spark v podokně Aktivity kanálu a přetáhněte aktivitu definice úlohy Sparku pod Synapse na plátno kanálu.

  2. Pokud ještě není vybraná, vyberte na plátně novou aktivitu definice úlohy Sparku.

  3. Na kartě Obecné zadejte ukázku pro Název.

  4. (Možnost) Můžete také zadat popis.

  5. Časový limit: Maximální doba, po kterou může aktivita běžet. Výchozí hodnota je sedm dní, což je také maximální povolená doba. Formát je ve formátu D.HH:MM:SS.

  6. Opakování: Maximální počet pokusů o opakování

  7. Interval opakování: Počet sekund mezi jednotlivými pokusy o opakování.

  8. Zabezpečený výstup: Při kontrole se výstup z aktivity nezachytí v protokolování.

  9. Zabezpečený vstup: Při kontrole se vstup z aktivity nezachytí v protokolování.

Nastavení Služby Azure Synapse Analytics (artefakty)

  1. Pokud ještě není vybraná, vyberte na plátně novou aktivitu definice úlohy Sparku.

  2. Výběrem karty Azure Synapse Analytics (Artefakty) vyberte nebo vytvořte novou propojenou službu Azure Synapse Analytics, která spustí aktivitu definice úlohy Sparku.

    Snímek obrazovky znázorňující uživatelské rozhraní pro kartu propojená služba pro aktivitu definice úlohy Spark

Karta Nastavení

  1. Pokud ještě není vybraná, vyberte na plátně novou aktivitu definice úlohy Sparku.

  2. Vyberte kartu Nastavení.

  3. Rozbalte seznam definic úloh Sparku a v propojeném pracovním prostoru Azure Synapse Analytics můžete vybrat existující definici úlohy Apache Sparku.

  4. (Volitelné) Můžete vyplnit informace o definici úlohy Apache Spark. Pokud jsou následující nastavení prázdná, použijí se ke spuštění nastavení samotné definice úlohy Spark. Pokud následující nastavení nejsou prázdná, tato nastavení nahradí nastavení samotné definice úlohy Spark.

    Vlastnost Popis
    Hlavní definiční soubor Hlavní soubor použitý pro úlohu. V úložišti vyberte soubor PY/JAR/ZIP. Pokud chcete soubor nahrát do účtu úložiště, vyberte Nahrát soubor .
    Ukázka: abfss://…/path/to/wordcount.jar
    Odkazy z podsložek Prohledání podsložek z kořenové složky hlavního definičního souboru se tyto soubory přidají jako referenční soubory. Složky s názvem "jars", "pyFiles", "files" nebo "archives" se naskenují a v názvu složek se rozlišují malá a velká písmena.
    Název hlavní třídy Plně kvalifikovaný identifikátor nebo hlavní třída, která je v hlavním definičním souboru.
    Ukázka: WordCount
    Argumenty příkazového řádku Argumenty příkazového řádku můžete přidat kliknutím na tlačítko Nový . Je třeba poznamenat, že přidání argumentů příkazového řádku přepíše argumenty příkazového řádku definované definicí úlohy Spark.
    Ukázka: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Fond Apache Sparku V seznamu můžete vybrat fond Apache Spark.
    Referenční informace k kódu Pythonu Další soubory kódu Pythonu používané pro referenci v hlavním definičním souboru.
    Podporuje předávání souborů (.py, .py3, .zip) do vlastnosti "pyFiles". Přepíše vlastnost "pyFiles" definovanou v definici úlohy Sparku.
    Referenční soubory Další soubory používané pro referenci v hlavním definičním souboru.
    Fond Apache Sparku V seznamu můžete vybrat fond Apache Spark.
    Dynamicky přidělovat exekutory Toto nastavení se mapuje na vlastnost dynamického přidělení v konfiguraci Sparku pro přidělení exekutorů aplikací Sparku.
    Minimální exekutory Minimální počet exekutorů, které se mají přidělit v zadaném fondu Sparku pro úlohu.
    Maximální počet exekutorů Maximální počet exekutorů, které se mají přidělit v zadaném fondu Sparku pro úlohu.
    Velikost ovladače Počet jaderachch
    Konfigurace Sparku Zadejte hodnoty pro vlastnosti konfigurace Sparku uvedené v tématu: Konfigurace Sparku – Vlastnosti aplikace. Uživatelé můžou použít výchozí konfiguraci a přizpůsobenou konfiguraci.

    Snímek obrazovky znázorňující uživatelské rozhraní aktivity definice úlohy Spark

  5. Dynamický obsah můžete přidat kliknutím na tlačítko Přidat dynamický obsah nebo stisknutím klávesové zkratky Alt+Shift+D. Na stránce Přidat dynamický obsah můžete k dynamickému obsahu použít libovolnou kombinaci výrazů, funkcí a systémových proměnných.

    Snímek obrazovky s uživatelským rozhraním pro přidání dynamického obsahu do aktivit definic úloh Sparku

Karta Vlastnosti uživatele

Na tomto panelu můžete přidat vlastnosti aktivity definice úlohy Apache Spark.

Snímek obrazovky s uživatelským rozhraním pro vlastnosti aktivity definice úlohy Spark

Definice aktivity definice úlohy Sparku Azure Synapse

Tady je ukázková definice JSON aktivity poznámkového bloku Azure Synapse Analytics:

 {
        "activities": [
            {
                "name": "Spark job definition1",
                "type": "SparkJob",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "typeProperties": {
                    "sparkJob": {
                        "referenceName": {
                            "value": "Spark job definition 1",
                            "type": "Expression"
                        },
                        "type": "SparkJobDefinitionReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ],
    }

Vlastnosti definice úlohy Azure Synapse Spark

Následující tabulka popisuje vlastnosti JSON použité v definici JSON:

Vlastnost Popis Povinní účastníci
name Název aktivity v kanálu Ano
description Text popisující, co aktivita dělá. No
type U aktivity definice úlohy Sparku Azure Synapse je typ aktivity SparkJob. Ano

Zobrazení historie spuštění aktivity spuštění úlohy Azure Synapse Sparku

Na kartě Monitorování přejděte na spuštění kanálu. Zobrazí se kanál, který jste aktivovali. Otevřete kanál, který obsahuje aktivitu definice úlohy Azure Synapse Spark, abyste viděli historii spuštění.

Snímek obrazovky znázorňující uživatelské rozhraní pro vstup a výstup pro spuštění aktivity definice úlohy Spark

Vstup nebo výstup aktivity poznámkového bloku můžete zobrazit výběrem vstupního nebo výstupního tlačítka. Pokud váš kanál selhal s chybou uživatele, výběrem výstupu zkontrolujte pole výsledků a prohlédněte si podrobné trasování chyb uživatele.

Snímek obrazovky znázorňující uživatelské rozhraní chyby výstupního uživatele pro spuštění aktivity definice úlohy Spark