Python-scripttaak voor taken
Gebruik de Python-scripttaak om een Python-bestand uit te voeren.
Een Python-scripttaak configureren
Voordat u begint, moet u uw Python-script uploaden naar een locatie die toegankelijk is voor de gebruiker die de taak configureert. Databricks raadt het gebruik van werkruimtebestanden voor Python-scripts aan. Zie Wat zijn werkruimtebestanden?
Notitie
In de gebruikersinterface voor taken worden opties dynamisch weergegeven op basis van andere geconfigureerde instellingen.
Databricks raadt aan om code of gegevens op te slaan met dbFS-hoofd- of koppels. In plaats daarvan kunt u Python-scripts migreren naar werkruimtebestanden of -volumes of URI's gebruiken voor toegang tot cloudobjectopslag.
De stroom starten om een Python script
taak te configureren:
- Navigeer naar het tabblad Taken in de gebruikersinterface van Taken.
- Selecteer
Python script
in de vervolgkeuzelijst Type .
De bron configureren
Selecteer in de vervolgkeuzelijst Bron een locatie voor het Python-script met behulp van een van de volgende opties.
Werkplek
Werkruimte gebruiken om een Python-script te configureren dat is opgeslagen met werkruimtebestanden.
- Klik op het padveld. Het dialoogvenster Python-bestand selecteren wordt weergegeven.
- Blader naar het Python-script, klik om het bestand te markeren en klik op Bevestigen.
Notitie
U kunt deze optie gebruiken om een taak te configureren voor een Python-script dat is opgeslagen in een Databricks Git-map. Databricks raadt u aan de optie voor de Git-provider en een externe Git-opslagplaats te gebruiken om assets te versieren die zijn gepland met taken.
DBFS/ADLS
Gebruik DBFS/ADLS om een Python-script te configureren dat is opgeslagen in een volume, opslaglocatie voor cloudobjecten of de DBFS-hoofdmap.
Databricks raadt aan Python-scripts op te slaan in Unity Catalog-volumes of cloudobjectopslag.
Voer in het veld Pad de URI in voor uw Python-script. Bijvoorbeeld /Volumes/path/to/script.py
of abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py
.
Git-provider
Gebruik de Git-provider om een Python-script te configureren dat is opgeslagen in een externe Git-opslagplaats.
De opties die door de gebruikersinterface worden weergegeven, zijn afhankelijk van of u al dan niet ergens anders een Git-provider hebt geconfigureerd. Er kan slechts één externe Git-opslagplaats worden gebruikt voor alle taken in een taak. Zie Git gebruiken met taken.
Het veld Pad wordt weergegeven nadat u een Git-verwijzing hebt geconfigureerd.
Voer het relatieve pad in voor uw Python-script, zoals etl/bronze/ingest.py
.
Belangrijk
Wanneer u het relatieve pad invoert, begint u niet met /
of ./
. Als het absolute pad voor de Python-code die u wilt openen bijvoorbeeld is /etl/bronze/ingest.py
, voert etl/bronze/ingest.py
u het veld Pad in.
Reken- en afhankelijke bibliotheken configureren
- Gebruik Compute om een cluster te selecteren of te configureren dat ondersteuning biedt voor de logica in uw script.
- Als u rekenkracht gebruikt
Serverless
, gebruikt u het veld Omgeving en bibliotheken om een nieuwe omgeving te selecteren, te bewerken of toe te voegen. Zie Notebook-afhankelijkheden installeren. - Klik voor alle andere rekenconfiguraties op + Toevoegen onder Afhankelijke bibliotheken. Het dialoogvenster Afhankelijke bibliotheek toevoegen wordt weergegeven.
- U kunt een bestaande bibliotheek selecteren of een nieuwe bibliotheek uploaden.
- U kunt alleen bibliotheken gebruiken die zijn opgeslagen op een locatie die wordt ondersteund door uw rekenconfiguraties. Zie ondersteuning voor Python-bibliotheken.
- Elke bibliotheekbron heeft een andere stroom voor het selecteren of uploaden van een bibliotheek. Zie Bibliotheken.
Taakconfiguratie voltooien
- (Optioneel) Configureer parameters als een lijst met tekenreeksen die als CLI-argumenten worden doorgegeven aan het Python-script. Zie Taakparameters configureren.
- Klik op Taak opslaan.