Sdílet prostřednictvím


Transformace dat spuštěním aktivity Pythonu v Azure Databricks

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Aktivita Pythonu Azure Databricks v kanálu spouští soubor Pythonu v clusteru Azure Databricks. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku.

Jedenáctiminutové představení a ukázku této funkce najdete v tomto videu:

Přidání aktivity Pythonu pro Azure Databricks do kanálu pomocí uživatelského rozhraní

Pokud chcete v kanálu použít aktivitu Pythonu pro Azure Databricks, proveďte následující kroky:

  1. Vyhledejte Python v podokně Aktivity kanálu a přetáhněte aktivitu Pythonu na plátno kanálu.

  2. Vyberte novou aktivitu Pythonu na plátně, pokud ještě není vybraná.

  3. Výběrem karty Azure Databricks vyberte nebo vytvořte novou propojenou službu Azure Databricks, která spustí aktivitu Pythonu.

    Zobrazuje uživatelské rozhraní pro aktivitu Pythonu.

  4. Vyberte kartu Nastavení a zadejte cestu v rámci Azure Databricks k souboru Pythonu, který se má spustit, volitelné parametry, které se mají předat, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

    Zobrazuje uživatelské rozhraní pro kartu Nastavení pro aktivitu Pythonu.

Definice aktivity Pythonu v Databricks

Tady je ukázková definice JSON aktivity Pythonu databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

Vlastnosti aktivity Pythonu pro Databricks

Následující tabulka popisuje vlastnosti JSON použité v definici JSON:

Vlastnost Popis Povinní účastníci
name Název aktivity v kanálu Ano
description Text popisující, co aktivita dělá. No
type Pro aktivitu Pythonu databricks je typ aktivity DatabricksSparkPython. Ano
linkedServiceName Název propojené služby Databricks, na které se aktivita Pythonu spouští. Další informace o této propojené službě najdete v článku o propojených službách Compute. Ano
pythonFile Identifikátor URI souboru Pythonu, který se má spustit. Podporují se pouze cesty DBFS. Ano
parametry Parametry příkazového řádku, které se předají do souboru Pythonu. Toto je pole řetězců. No
knihovny Seznam knihoven, které se mají nainstalovat do clusteru, který spustí úlohu. Může to být pole řetězce, objektu <.> No

Podporované knihovny pro aktivity Databricks

Ve výše uvedené definici aktivity Databricks zadáte tyto typy knihoven: jar, egg, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Další podrobnosti najdete v dokumentaci k Databricks pro typy knihoven.

Jak nahrát knihovnu v Databricks

Můžete použít uživatelské rozhraní pracovního prostoru:

  1. Použití uživatelského rozhraní pracovního prostoru Databricks

  2. K získání cesty dbfs knihovny přidané pomocí uživatelského rozhraní můžete použít Rozhraní příkazového řádku Databricks.

    Knihovny Jar se obvykle ukládají v souboru dbfs:/FileStore/jars při používání uživatelského rozhraní. Seznam všech prostřednictvím rozhraní příkazového řádku: databricks fs ls dbfs:/FileStore/job-jars

Nebo můžete použít rozhraní příkazového řádku Databricks:

  1. Postupujte podle pokynů ke kopírování knihovny pomocí rozhraní příkazového řádku Databricks.

  2. Použití rozhraní příkazového řádku Databricks (kroky instalace)

    Například zkopírování souboru JAR do dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar