DatabricksStep Klasa
Tworzy krok potoku usługi Azure ML w celu dodania notesu usługi DataBricks, skryptu języka Python lub pliku JAR jako węzła.
Przykład użycia usługi DatabricksStep można znaleźć w notesie https://aka.ms/pl-databricks.
Utwórz krok potoku usługi Azure ML, aby dodać notes usługi DataBricks, skrypt języka Python lub plik JAR jako węzeł.
Przykład użycia usługi DatabricksStep można znaleźć w notesie https://aka.ms/pl-databricks.
:p aram python_script_name:[Wymagane] Nazwa skryptu języka Python względem source_directory
.
Jeśli skrypt przyjmuje dane wejściowe i wyjściowe, zostaną one przekazane do skryptu jako parametry.
Jeśli python_script_name
zostanie określony, source_directory
musi być też.
Określ dokładnie jedną z notebook_path
wartości , , python_script_path
python_script_name
lub main_class_name
.
Jeśli określisz obiekt DataReference jako dane wejściowe z data_reference_name=input1 i obiekt PipelineData jako dane wyjściowe o nazwie=output1, dane wejściowe i wyjściowe zostaną przekazane do skryptu jako parametry. W ten sposób będą wyglądać i trzeba przeanalizować argumenty w skryscie, aby uzyskać dostęp do ścieżek poszczególnych danych wejściowych i wyjściowych: "-input1","wasbs:///test","-output1", "wasbs://test@storagename.blob.core.windows.nettest@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"
Ponadto w skryscie będą dostępne następujące parametry:
- AZUREML_RUN_TOKEN: token AML do uwierzytelniania za pomocą usługi Azure Machine Learning.
- AZUREML_RUN_TOKEN_EXPIRY: czas wygaśnięcia tokenu AML.
- AZUREML_RUN_ID: Identyfikator przebiegu usługi Azure Machine Learning dla tego przebiegu.
- AZUREML_ARM_SUBSCRIPTION: subskrypcja platformy Azure dla obszaru roboczego AML.
- AZUREML_ARM_RESOURCEGROUP: grupa zasobów platformy Azure dla obszaru roboczego usługi Azure Machine Learning.
- AZUREML_ARM_WORKSPACE_NAME: nazwa obszaru roboczego usługi Azure Machine Learning.
- AZUREML_ARM_PROJECT_NAME: nazwa eksperymentu usługi Azure Machine Learning.
- AZUREML_SERVICE_ENDPOINT: adres URL punktu końcowego dla usług AML.
- AZUREML_WORKSPACE_ID: identyfikator obszaru roboczego usługi Azure Machine Learning.
- AZUREML_EXPERIMENT_ID: identyfikator eksperymentu usługi Azure Machine Learning.
- AZUREML_SCRIPT_DIRECTORY_NAME: ścieżka katalogu w systemie plików DBFS, w których source_directory została skopiowana.
(This parameter is only populated when `python_script_name` is used. See more details below.)
Podczas wykonywania skryptu języka Python z komputera lokalnego w usłudze Databricks przy użyciu parametrów source_directory
DatabricksStep i python_script_name
source_directory jest kopiowany do systemu plików DBFS, a ścieżka katalogu w systemie plików DBFS jest przekazywana jako parametr do skryptu po rozpoczęciu wykonywania.
Ten parametr jest oznaczony jako –AZUREML_SCRIPT_DIRECTORY_NAME. Musisz go prefiksować za pomocą ciągu "dbfs:/" lub "/dbfs/", aby uzyskać dostęp do katalogu w systemie plików DBFS.
- Dziedziczenie
-
azureml.pipeline.core._databricks_step_base._DatabricksStepBaseDatabricksStep
Konstruktor
DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)
Parametry
Nazwa | Opis |
---|---|
name
Wymagane
|
[Wymagane] Nazwa kroku. |
inputs
|
Lista połączeń wejściowych dla danych używanych przez ten krok. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("input_name"). Może to być dataReference lub PipelineData. DataReference reprezentuje istniejący element danych w magazynie danych. Zasadniczo jest to ścieżka w magazynie danych. Usługa DatabricksStep obsługuje magazyny danych, które hermetyzują system PLIKÓW DBFS, obiekt blob platformy Azure lub usługę ADLS w wersji 1. PipelineData reprezentuje dane pośrednie generowane przez inny krok w potoku. Domyślna wartość: None
|
outputs
|
Lista definicji portów wyjściowych dla danych wyjściowych utworzonych w tym kroku. Pobierz to wewnątrz notesu przy użyciu dbutils.widgets.get("output_name"). Powinna być wartość PipelineData. Domyślna wartość: None
|
existing_cluster_id
|
Identyfikator klastra istniejącego klastra interaktywnego w obszarze roboczym usługi Databricks. W przypadku przekazania tego parametru nie można przekazać żadnego z następujących parametrów, które są używane do utworzenia nowego klastra:
Uwaga: aby utworzyć nowy klaster zadań, należy przekazać powyższe parametry. Te parametry można przekazać bezpośrednio lub przekazać je w ramach obiektu RunConfiguration przy użyciu parametru runconfig. Przekazywanie tych parametrów bezpośrednio i za pomocą funkcji RunConfiguration powoduje wystąpienie błędu. Domyślna wartość: None
|
spark_version
|
Wersja platformy Spark dla klastra uruchomień usługi Databricks, na przykład: "10.4.x-scala2.12".
Aby uzyskać więcej informacji, zobacz opis parametru Domyślna wartość: None
|
node_type
|
[Wymagane] Typy węzłów maszyny wirtualnej platformy Azure dla klastra uruchamiania usługi Databricks, na przykład: "Standard_D3_v2". Określ wartość Domyślna wartość: None
|
instance_pool_id
|
[Wymagane] Identyfikator puli wystąpień, do którego należy dołączyć klaster.
Określ wartość Domyślna wartość: None
|
num_workers
|
[Wymagane] Statyczna liczba procesów roboczych dla klastra uruchamiania usługi Databricks.
Musisz określić wartość lub zarówno , jak Domyślna wartość: None
|
min_workers
|
[Wymagane] Minimalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks.
Musisz określić wartość lub zarówno , jak Domyślna wartość: None
|
max_workers
|
[Wymagane] Maksymalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks.
Musisz określić wartość lub zarówno , jak Domyślna wartość: None
|
spark_env_variables
|
Zmienne środowiskowe platformy Spark dla klastra uruchomień usługi Databricks.
Aby uzyskać więcej informacji, zobacz opis parametru Domyślna wartość: None
|
spark_conf
|
Konfiguracja platformy Spark dla klastra uruchomieniowego usługi Databricks.
Aby uzyskać więcej informacji, zobacz opis parametru Domyślna wartość: None
|
init_scripts
|
[str]
Przestarzałe. Usługa Databricks ogłosiła, że skrypt inicjowania przechowywany w systemie DBFS przestanie działać po 1 grudnia 2023 r. Aby rozwiązać ten problem, użyj globalnych skryptów inicjowania w usłudze Databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) oznacz jako komentarz wiersz init_scripts w kroku usługi Databricks usługi AzureML. Domyślna wartość: None
|
cluster_log_dbfs_path
|
Ścieżki systemu plików DBFS, w których mają być dostarczane dzienniki klastrów. Domyślna wartość: None
|
notebook_path
|
[Wymagane] Ścieżka do notesu w wystąpieniu usługi Databricks. Ta klasa umożliwia cztery sposoby określania kodu do wykonania w klastrze usługi Databricks.
Określ dokładnie jedną z Domyślna wartość: None
|
notebook_params
|
Słownik parametrów do przekazania do notesu.
Domyślna wartość: None
|
python_script_path
|
[Wymagane] Ścieżka do skryptu języka Python w systemie plików DBFS.
Określ dokładnie jedną z Domyślna wartość: None
|
python_script_params
|
Parametry skryptu języka Python. Domyślna wartość: None
|
main_class_name
|
[Wymagane] Nazwa punktu wejścia w module JAR.
Określ dokładnie jedną z Domyślna wartość: None
|
jar_params
|
Parametry modułu JAR. Domyślna wartość: None
|
python_script_name
|
[Wymagane] Nazwa skryptu języka Python względem Określ dokładnie jedną z Jeśli określisz obiekt DataReference jako dane wejściowe z data_reference_name=input1 i obiekt PipelineData jako dane wyjściowe o nazwie =output1, dane wejściowe i wyjściowe zostaną przekazane do skryptu jako parametry. W ten sposób będą wyglądać następująco: należy przeanalizować argumenty w skrypcie, aby uzyskać dostęp do ścieżek poszczególnych danych wejściowych i wyjściowych: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Ponadto w skrycie będą dostępne następujące parametry:
Podczas wykonywania skryptu języka Python z komputera lokalnego w usłudze Databricks przy użyciu parametrów Domyślna wartość: None
|
source_directory
|
Folder zawierający skrypt i inne pliki.
Jeśli Domyślna wartość: None
|
hash_paths
|
[str]
PRZESTARZAŁE: nie są już potrzebne. Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie zostaną wykryte żadne zmiany, potok użyje ponownie zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość pliku jest skrótem Domyślna wartość: None
|
run_name
|
Nazwa w usłudze Databricks dla tego przebiegu. Domyślna wartość: None
|
timeout_seconds
|
Limit czasu uruchomienia usługi Databricks. Domyślna wartość: None
|
runconfig
|
Element runconfig do użycia. Uwaga: możesz przekazać dowolną liczbę bibliotek jako zależności do zadania przy użyciu następujących parametrów: Domyślna wartość: None
|
maven_libraries
|
Biblioteki Maven do użycia na potrzeby uruchamiania usługi Databricks. Domyślna wartość: None
|
pypi_libraries
|
Biblioteki PyPi do użycia na potrzeby uruchamiania usługi Databricks. Domyślna wartość: None
|
egg_libraries
|
Biblioteki jaj do użycia na potrzeby uruchamiania usługi Databricks. Domyślna wartość: None
|
jar_libraries
|
Biblioteki Jar do użycia na potrzeby uruchamiania usługi Databricks. Domyślna wartość: None
|
rcran_libraries
|
Biblioteki RCran do użycia na potrzeby uruchamiania usługi Databricks. Domyślna wartość: None
|
compute_target
|
[Wymagane] Środowisko obliczeniowe usługi Azure Databricks. Zanim będzie można użyć usługi DatabricksStep do wykonywania skryptów lub notesów w obszarze roboczym usługi Azure Databricks, musisz dodać obszar roboczy usługi Azure Databricks jako obiekt docelowy obliczeń do obszaru roboczego usługi Azure Machine Learning. Domyślna wartość: None
|
allow_reuse
|
Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego przebiegu są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie. Domyślna wartość: True
|
version
|
Opcjonalny tag wersji, aby oznaczyć zmianę funkcjonalności kroku. Domyślna wartość: None
|
permit_cluster_restart
|
Jeśli określono existing_cluster_id, ten parametr informuje, czy klaster można ponownie uruchomić w imieniu użytkownika. Domyślna wartość: None
|
name
Wymagane
|
[Wymagane] Nazwa kroku. |
inputs
Wymagane
|
Lista połączeń wejściowych dla danych używanych w tym kroku. Pobierz to wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("input_name"). Może to być DataReference lub PipelineData. DataReference reprezentuje istniejący element danych w magazynie danych. Zasadniczo jest to ścieżka w magazynie danych. Usługa DatabricksStep obsługuje magazyny danych, które hermetyzują system plików DBFS, obiekt blob platformy Azure lub usługę ADLS w wersji 1. PipelineData reprezentuje dane pośrednie generowane przez inny krok w potoku. |
outputs
Wymagane
|
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Lista definicji portów wyjściowych dla danych wyjściowych utworzonych w tym kroku. Pobierz to wewnątrz notesu przy użyciu polecenia dbutils.widgets.get("output_name"). Powinna mieć wartość PipelineData. |
existing_cluster_id
Wymagane
|
Identyfikator klastra istniejącego klastra interaktywnego w obszarze roboczym usługi Databricks. Jeśli przekazujesz ten parametr, nie można przekazać żadnego z następujących parametrów, które są używane do tworzenia nowego klastra:
Uwaga: aby utworzyć nowy klaster zadań, należy przekazać powyższe parametry. Te parametry można przekazać bezpośrednio lub przekazać je w ramach obiektu RunConfiguration przy użyciu parametru runconfig. Przekazanie tych parametrów bezpośrednio i za pośrednictwem polecenia RunConfiguration powoduje wystąpienie błędu. |
spark_version
Wymagane
|
Wersja platformy Spark dla klastra usługi Databricks, na przykład: "10.4.x-scala2.12".
Aby uzyskać więcej informacji, zobacz opis parametru |
node_type
Wymagane
|
[Wymagane] Typy węzłów maszyny wirtualnej platformy Azure dla klastra uruchamiania usługi Databricks, na przykład: "Standard_D3_v2". Określ wartość |
instance_pool_id
Wymagane
|
[Wymagane] Identyfikator puli wystąpień, do którego należy dołączyć klaster.
Określ wartość |
num_workers
Wymagane
|
[Wymagane] Statyczna liczba procesów roboczych dla klastra uruchamiania usługi Databricks.
Musisz określić wartość lub zarówno , jak Aby uzyskać więcej informacji, zobacz opis parametru |
min_workers
Wymagane
|
[Wymagane] Minimalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks.
Musisz określić wartość lub zarówno , jak Aby uzyskać więcej informacji, zobacz opis parametru |
max_workers
Wymagane
|
[Wymagane] Maksymalna liczba procesów roboczych używanych do automatycznego skalowania klastra uruchomień usługi Databricks.
Musisz określić wartość lub zarówno , jak Aby uzyskać więcej informacji, zobacz opis parametru |
spark_env_variables
Wymagane
|
Zmienne środowiskowe platformy Spark dla klastra uruchomień usługi Databricks.
Aby uzyskać więcej informacji, zobacz opis parametru |
spark_conf
Wymagane
|
Konfiguracja platformy Spark dla klastra uruchomień usługi Databricks.
Aby uzyskać więcej informacji, zobacz opis parametru |
init_scripts
Wymagane
|
[str]
Przestarzałe. Usługa Databricks ogłosiła, że skrypt inicjowania przechowywany w systemie plików DBFS przestanie działać po 1 grudnia 2023 r. Aby rozwiązać ten problem, użyj globalnych skryptów init w usłudze databricks po https://learn.microsoft.com/azure/databricks/init-scripts/global 2) oznacz jako komentarz wiersz init_scripts w kroku usługi AzureML databricks. |
cluster_log_dbfs_path
Wymagane
|
Ścieżki systemu plików DBFS, w których mają być dostarczane dzienniki klastrów. |
notebook_path
Wymagane
|
[Wymagane] Ścieżka do notesu w wystąpieniu usługi Databricks. Ta klasa umożliwia cztery sposoby określania kodu do wykonania w klastrze usługi Databricks.
Określ dokładnie jedną z |
notebook_params
Wymagane
|
Słownik parametrów do przekazania do notesu.
|
python_script_path
Wymagane
|
[Wymagane] Ścieżka do skryptu języka Python w systemie plików DBFS.
Określ dokładnie jedną z |
python_script_params
Wymagane
|
Parametry skryptu języka Python. |
main_class_name
Wymagane
|
[Wymagane] Nazwa punktu wejścia w module JAR.
Określ dokładnie jedną z |
jar_params
Wymagane
|
Parametry modułu JAR. |
source_directory
Wymagane
|
Folder zawierający skrypt i inne pliki.
Jeśli |
hash_paths
Wymagane
|
[str]
PRZESTARZAŁE: nie jest już potrzebne. Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie wykryto żadnych zmian, potok ponownie użyje zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość elementu |
run_name
Wymagane
|
Nazwa w usłudze Databricks dla tego przebiegu. |
timeout_seconds
Wymagane
|
Limit czasu uruchomienia usługi Databricks. |
runconfig
Wymagane
|
Polecenie runconfig do użycia. Uwaga: możesz przekazać dowolną liczbę bibliotek do zadania przy użyciu następujących parametrów: |
maven_libraries
Wymagane
|
list[<xref:azureml.core.runconfig.MavenLibrary>]
Biblioteki Maven do użycia na potrzeby uruchamiania usługi Databricks.
Aby uzyskać więcej informacji na temat specyfikacji bibliotek Maven, zobacz |
pypi_libraries
Wymagane
|
list[<xref:azureml.core.runconfig.PyPiLibrary>]
Biblioteki PyPi do użycia na potrzeby uruchamiania usługi Databricks.
Aby uzyskać więcej informacji na temat specyfikacji bibliotek PyPi, zobacz |
egg_libraries
Wymagane
|
list[<xref:azureml.core.runconfig.EggLibrary>]
Biblioteki jaj do użycia na potrzeby uruchamiania usługi Databricks.
Aby uzyskać więcej informacji na temat specyfikacji bibliotek jaj, zobacz |
jar_libraries
Wymagane
|
list[<xref:azureml.core.runconfig.JarLibrary>]
Biblioteki Jar do użycia na potrzeby uruchamiania usługi Databricks.
Aby uzyskać więcej informacji na temat specyfikacji bibliotek Jar, zobacz |
rcran_libraries
Wymagane
|
list[<xref:azureml.core.runconfig.RCranLibrary>]
Biblioteki RCran do użycia na potrzeby uruchamiania usługi Databricks.
Aby uzyskać więcej informacji na temat specyfikacji bibliotek RCran, zobacz |
compute_target
Wymagane
|
[Wymagane] Obliczenia usługi Azure Databricks. Aby można było użyć narzędzia DatabricksStep do wykonywania skryptów lub notesów w obszarze roboczym usługi Azure Databricks, musisz dodać obszar roboczy usługi Azure Databricks jako obiekt docelowy obliczeniowy do obszaru roboczego usługi Azure Machine Learning. |
allow_reuse
Wymagane
|
Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego uruchomienia są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie. |
version
Wymagane
|
Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku. |
permit_cluster_restart
Wymagane
|
jeśli existing_cluster_id jest określony, ten parametr informuje, czy klaster można ponownie uruchomić w imieniu użytkownika. |
Metody
create_node |
Utwórz węzeł z kroku usługi Databricks i dodaj go do określonego grafu. Ta metoda nie jest przeznaczona do użycia bezpośrednio. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje parametry wymagane za pomocą tej metody, aby można było dodać krok do wykresu potoku reprezentującego przepływ pracy. |
create_node
Utwórz węzeł z kroku usługi Databricks i dodaj go do określonego grafu.
Ta metoda nie jest przeznaczona do użycia bezpośrednio. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje parametry wymagane za pomocą tej metody, aby można było dodać krok do wykresu potoku reprezentującego przepływ pracy.
create_node(graph, default_datastore, context)
Parametry
Nazwa | Opis |
---|---|
graph
Wymagane
|
Obiekt grafu, do który ma zostać dodany węzeł. |
default_datastore
Wymagane
|
Domyślny magazyn danych. |
context
Wymagane
|
<xref:azureml.pipeline.core._GraphContext>
Kontekst grafu. |
Zwraca
Typ | Opis |
---|---|
Utworzony węzeł. |