ml パッケージ
パッケージ
automl |
Azure Machine Learning SDKv2 用の自動機械学習クラスが含まれています。 主な領域は、AutoML タスクの管理です。 |
constants |
このパッケージでは、Azure Machine Learning SDKv2 で使用される定数を定義します。 |
data_transfer | |
dsl | |
entities |
Azure Machine Learning SDKv2 のエンティティと SDK オブジェクトが含まれています。 主な領域は、コンピューティング 先の管理、ワークスペースとジョブの作成/管理、モデルの送信/アクセス、実行、出力/ログ記録などです。 |
identity |
Azure Machine Learning SDKv2 の ID 構成が含まれています。 |
operations |
Azure Machine Learning SDKv2 でサポートされている操作が含まれています。 操作は、バックエンド サービス (通常は自動生成された操作呼び出し) と対話するロジックを含むクラスです。 |
parallel | |
sweep |
モジュール
exceptions |
Azure Machine Learning SDKv2 の例外モジュールが含まれています。 これには、例外の列挙型とクラスが含まれます。 |
クラス
AmlTokenConfiguration |
AzureML トークン ID の構成。 |
Input |
Input オブジェクトを初期化します。 |
MLClient |
Azure ML サービスと対話するためのクライアント クラス。 このクライアントを使用して、ワークスペース、ジョブ、モデルなどの Azure ML リソースを管理します。 |
ManagedIdentityConfiguration |
マネージド ID 資格情報の構成。 |
MpiDistribution |
MPI 配布の構成。 |
Output | |
PyTorchDistribution |
PyTorch ディストリビューションの構成。 |
RayDistribution |
Note これは試験段階のクラスであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。 レイ分布の構成。 |
TensorFlowDistribution |
TensorFlow 分散の構成。 |
UserIdentityConfiguration |
ユーザー ID の構成。 |
機能
command
dsl.pipeline 関数内で使用したり、スタンドアロンの Command ジョブとして使用したりできる Command オブジェクトを作成します。
command(*, name: str | None = None, description: str | None = None, tags: Dict | None = None, properties: Dict | None = None, display_name: str | None = None, command: str | None = None, experiment_name: str | None = None, environment: str | Environment | None = None, environment_variables: Dict | None = None, distribution: Dict | MpiDistribution | TensorFlowDistribution | PyTorchDistribution | RayDistribution | None = None, compute: str | None = None, inputs: Dict | None = None, outputs: Dict | None = None, instance_count: int | None = None, instance_type: str | None = None, locations: List[str] | None = None, docker_args: str | None = None, shm_size: str | None = None, timeout: int | None = None, code: PathLike | str | None = None, identity: ManagedIdentityConfiguration | AmlTokenConfiguration | UserIdentityConfiguration | None = None, is_deterministic: bool = True, services: Dict[str, JobService | JupyterLabJobService | SshJobService | TensorBoardJobService | VsCodeJobService] | None = None, job_tier: str | None = None, priority: str | None = None, **kwargs) -> Command
パラメーター
- environment
- Optional[Union[str, Environment]]
ジョブが実行される環境。
環境変数の名前と値のディクショナリ。 これらの環境変数は、ユーザー スクリプトが実行されるプロセスで設定されます。 既定値は None です。
- distribution
- Optional[Union[dict, PyTorchDistribution, MpiDistribution, TensorFlowDistribution, RayDistribution]]
分散ジョブの構成。 既定値は None です。
ジョブで使用される入力データ ソースへの入力名のマッピング。 既定値は None です。
Docker 実行コマンドに渡す追加の引数。 これにより、システムまたはこのセクションで既に設定されているパラメーターがオーバーライドされます。 このパラメーターは、Azure ML コンピューティングの種類でのみサポートされています。 既定値は None です。
Docker コンテナーの共有メモリ ブロックのサイズ。 この形式は (number)(unit) で、数値は 0 より大きくする必要があり、単位には b(バイト)、k(キロバイト)、m(メガバイト)、g(ギガバイト) のいずれかを指定できます。
ジョブを実行するソース コード。 リモートの場所を指すローカル パスまたは "http:"、"https:"、または "azureml:" URL を指定できます。
- identity
- Optional[Union[ ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]
コンピューティングでの実行中にコマンド ジョブが使用する ID。
- is_deterministic
- bool
同じ入力を指定して、コマンドが同じ出力を返すかどうかを指定します。 既定値は True です。 True の場合、コマンド コンポーネントが決定論的であり、同じ入力と設定を使用して現在のワークスペースで以前に実行されていた場合、パイプラインのノードまたはステップとして使用されたときに、以前に送信されたジョブの結果が再利用されます。 そのシナリオでは、コンピューティング リソースは使用されません。
- services
- Optional[dict[str, Union[JobService, JupyterLabJobService, SshJobService, TensorBoardJobService, VsCodeJobService]]]
ノードの対話型サービス。 既定値は None です。 これは試験的なパラメーターであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。
戻り値
Command オブジェクト。
の戻り値の型 :
例
command() ビルダー メソッドを使用してコマンド ジョブを作成する。
from azure.ai.ml import Input, Output, command
train_func = command(
environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu:33",
command='echo "hello world"',
distribution={"type": "Pytorch", "process_count_per_instance": 2},
inputs={
"training_data": Input(type="uri_folder"),
"max_epochs": 20,
"learning_rate": 1.8,
"learning_rate_schedule": "time-based",
},
outputs={"model_output": Output(type="uri_folder")},
)
load_batch_deployment
yaml ファイルからバッチ デプロイ オブジェクトを構築します。
load_batch_deployment(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> BatchDeployment
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
バッチ デプロイ オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
構築されたバッチ 配置オブジェクト。
の戻り値の型 :
load_batch_endpoint
yaml ファイルからバッチ エンドポイント オブジェクトを構築します。
load_batch_endpoint(source: str | PathLike | IO, relative_origin: str | None = None, **kwargs) -> BatchEndpoint
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
バッチ エンドポイント オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
構築されたバッチ エンドポイント オブジェクト。
の戻り値の型 :
load_component
コンポーネントをローカルまたはリモートからコンポーネント関数に読み込みます。
load_component(source: str | PathLike | IO | None = None, *, relative_origin: str | None = None, **kwargs) -> CommandComponent | ParallelComponent | PipelineComponent
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
コンポーネントのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
Component オブジェクト
の戻り値の型 :
例
YAML ファイルから Component オブジェクトを読み込み、そのバージョンを "1.0.2" にオーバーライドし、リモートで登録します。
from azure.ai.ml import load_component
component = load_component(
source="./sdk/ml/azure-ai-ml/tests/test_configs/components/helloworld_component.yml",
params_override=[{"version": "1.0.2"}],
)
registered_component = ml_client.components.create_or_update(component)
load_compute
yaml ファイルからコンピューティング オブジェクトを構築します。
load_compute(source: str | PathLike | IO, *, relative_origin: str | None = None, params_override: List[Dict[str, str]] | None = None, **kwargs) -> Compute
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
コンピューティングのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
yaml ファイルの上に上書きするフィールド。 書式は [{"field1": "value1"}, {"field2": "value2"}]
戻り値
読み込まれたコンピューティング オブジェクト。
の戻り値の型 :
例
YAML ファイルから Compute オブジェクトを読み込み、その説明をオーバーライドします。
from azure.ai.ml import load_compute
compute = load_compute(
"../tests/test_configs/compute/compute-vm.yaml",
params_override=[{"description": "loaded from compute-vm.yaml"}],
)
load_data
yaml ファイルからデータ オブジェクトを構築します。
load_data(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Data
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
データ オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
構築された Data オブジェクトまたは DataImport オブジェクト。
の戻り値の型 :
例外
データを正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。
load_datastore
yaml ファイルからデータストア オブジェクトを構築します。
load_datastore(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Datastore
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
データストアのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
読み込まれたデータストア オブジェクト。
の戻り値の型 :
例外
データストアを正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。
load_environment
yaml ファイルから環境オブジェクトを構築します。
load_environment(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Environment
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
環境のローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されているファイルの相対位置を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
構築された環境オブジェクト。
の戻り値の型 :
例外
環境を正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。
load_job
YAML ファイルから Job オブジェクトを構築します。
load_job(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Job
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
ローカル YAML ファイルへのパス、またはジョブ構成を含む既に開いているファイル オブジェクト。 ソースがパスの場合は、開いて読み取ります。 ソースが開いているファイルの場合、ファイルは直接読み取られます。
YAML のルート ディレクトリ。 このディレクトリは、解析された YAML で参照されるファイルの相対位置を削除するための配信元として使用されます。 source がファイルまたはファイル パスの入力である場合、既定では source と同じディレクトリになります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
読み込まれた Job オブジェクト。
の戻り値の型 :
例外
Job が正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。
例
YAML 構成ファイルからジョブを読み込む。
from azure.ai.ml import load_job
job = load_job(source="./sdk/ml/azure-ai-ml/tests/test_configs/command_job/command_job_test_local_env.yml")
load_model
YAML ファイルから Model オブジェクトを構築します。
load_model(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Model
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
ローカル YAML ファイルへのパス、またはジョブ構成を含む既に開いているファイル オブジェクト。 ソースがパスの場合は、開いて読み取ります。 ソースが開いているファイルの場合、ファイルは直接読み取られます。
YAML のルート ディレクトリ。 このディレクトリは、解析された YAML で参照されるファイルの相対位置を削除するための配信元として使用されます。 source がファイルまたはファイル パスの入力である場合、既定では source と同じディレクトリになります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
読み込まれた Model オブジェクト。
の戻り値の型 :
例外
Job が正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。
例
YAML 構成ファイルからモデルを読み込み、名前とバージョンのパラメーターをオーバーライドします。
from azure.ai.ml import load_model
model = load_model(
source="./sdk/ml/azure-ai-ml/tests/test_configs/model/model_with_stage.yml",
params_override=[{"name": "new_model_name"}, {"version": "1"}],
)
load_model_package
Note
これは試験的なメソッドであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。
YAML ファイルから ModelPackage オブジェクトを構築します。
load_model_package(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> ModelPackage
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
ローカル YAML ファイルへのパス、またはジョブ構成を含む既に開いているファイル オブジェクト。 ソースがパスの場合は、開いて読み取られます。 ソースが開いているファイルの場合、ファイルは直接読み取られます。
YAML のルート ディレクトリ。 このディレクトリは、解析された YAML で参照されるファイルの相対位置を指定するための配信元として使用されます。 source がファイルまたはファイル パスの入力の場合、既定では source と同じディレクトリになります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
読み込まれた ModelPackage オブジェクト。
の戻り値の型 :
例外
Job が正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。
例
YAML 構成ファイルから ModelPackage を読み込む。
from azure.ai.ml import load_model_package
model_package = load_model_package(
"./sdk/ml/azure-ai-ml/tests/test_configs/model_package/model_package_simple.yml"
)
load_online_deployment
yaml ファイルからオンライン デプロイ オブジェクトを構築します。
load_online_deployment(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> OnlineDeployment
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
オンライン デプロイ オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
オンライン 展開オブジェクトを構築しました。
の戻り値の型 :
例外
オンライン展開を正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。
load_online_endpoint
yaml ファイルからオンライン エンドポイント オブジェクトを構築します。
load_online_endpoint(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> OnlineEndpoint
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
オンライン エンドポイント オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
オンライン エンドポイント オブジェクトを構築しました。
の戻り値の型 :
例外
オンライン エンドポイントを正常に検証できない場合に発生します。 詳細はエラー メッセージに表示されます。
load_registry
yaml ファイルからレジストリ オブジェクトを読み込みます。
load_registry(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Registry
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
レジストリのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
読み込まれたレジストリ オブジェクト。
の戻り値の型 :
load_workspace
yaml ファイルからワークスペース オブジェクトを読み込みます。
load_workspace(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> Workspace
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
ワークスペースのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
読み込まれたワークスペース オブジェクト。
の戻り値の型 :
load_workspace_connection
yaml ファイルからワークスペース接続オブジェクトを構築します。
load_workspace_connection(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> WorkspaceConnection
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
ワークスペース接続オブジェクトのローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
構築されたワークスペース接続オブジェクト。
の戻り値の型 :
load_workspace_hub
Note
これは試験的なメソッドであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。
yaml ファイルから WorkspaceHub オブジェクトを読み込みます。
load_workspace_hub(source: str | PathLike | IO, *, relative_origin: str | None = None, **kwargs) -> WorkspaceHub
パラメーター
- source
- Union[<xref:PathLike>, str, TextIOWrapper]
WorkspaceHub のローカル yaml ソース。 ローカル ファイルへのパス、または既に開いているファイルである必要があります。 ソースがパスの場合は、開いて読み取られます。 ファイルが存在しない場合は例外が発生します。 ソースが開いているファイルの場合、ファイルは直接読み取られ、ファイルが読み取り可能でない場合は例外が発生します。
- relative_origin
- str
解析された yaml で参照されるファイルの相対的な場所を指定するときに使用される配信元。 ファイルまたはファイル パスの入力である場合は、入力されたソースのディレクトリが既定値になります。 ソースが名前値のないストリーム入力の場合、既定値は "./" です。
戻り値
WorkspaceHub オブジェクトが読み込まれました。
の戻り値の型 :
spark
dsl.pipeline 関数内で使用したり、スタンドアロンの Spark ジョブとして使用したりできる Spark オブジェクトを作成します。
spark(*, experiment_name: str | None = None, name: str | None = None, display_name: str | None = None, description: str | None = None, tags: Dict | None = None, code: PathLike | str | None = None, entry: Dict[str, str] | SparkJobEntry | None = None, py_files: List[str] | None = None, jars: List[str] | None = None, files: List[str] | None = None, archives: List[str] | None = None, identity: Dict[str, str] | ManagedIdentity | AmlToken | UserIdentity | None = None, driver_cores: int | None = None, driver_memory: str | None = None, executor_cores: int | None = None, executor_memory: str | None = None, executor_instances: int | None = None, dynamic_allocation_enabled: bool | None = None, dynamic_allocation_min_executors: int | None = None, dynamic_allocation_max_executors: int | None = None, conf: Dict[str, str] | None = None, environment: str | Environment | None = None, inputs: Dict | None = None, outputs: Dict | None = None, args: str | None = None, compute: str | None = None, resources: Dict | SparkResourceConfiguration | None = None, **kwargs) -> Spark
パラメーター
- code
ジョブを実行するソース コード。 リモートの場所を指すローカル パスまたは "http:"、"https:"、または "azureml:" URL を指定できます。
- identity
- Optional[Union[ dict[str, str], ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]
コンピューティングでの実行中に Spark ジョブが使用する ID。
ドライバー プロセスに使用するメモリの量。サイズ単位サフィックス ("k"、"m"、"g"、または "t") (例: "512m"、"2g") を含む文字列として書式設定されます。
Executor プロセスごとに使用するメモリの量。サイズ単位サフィックス ("k"、"m"、"g"、または "t") (例: "512m"、"2g") を含む文字列として書式設定されます。
動的リソース割り当てを使用するかどうか。このアプリケーションに登録されている Executor の数をワークロードに基づいてスケールアップおよびスケールダウンします。
- environment
- Optional[Union[str, Environment]]
ジョブを実行する Azure ML 環境。
- resources
- Optional[Union[dict, SparkResourceConfiguration]]
ジョブのコンピューティング リソース構成。
戻り値
Spark オブジェクト。
の戻り値の型 :
例
DSL パイプライン デコレーターを使用した Spark パイプラインの構築
from azure.ai.ml import Input, Output, dsl, spark
from azure.ai.ml.constants import AssetTypes, InputOutputModes
# define the spark task
first_step = spark(
code="/src",
entry={"file": "add_greeting_column.py"},
py_files=["utils.zip"],
files=["my_files.txt"],
driver_cores=2,
driver_memory="1g",
executor_cores=1,
executor_memory="1g",
executor_instances=1,
inputs=dict(
file_input=Input(path="/dataset/iris.csv", type=AssetTypes.URI_FILE, mode=InputOutputModes.DIRECT)
),
args="--file_input ${{inputs.file_input}}",
resources={"instance_type": "standard_e4s_v3", "runtime_version": "3.2.0"},
)
second_step = spark(
code="/src",
entry={"file": "count_by_row.py"},
jars=["scala_project.jar"],
files=["my_files.txt"],
driver_cores=2,
driver_memory="1g",
executor_cores=1,
executor_memory="1g",
executor_instances=1,
inputs=dict(
file_input=Input(path="/dataset/iris.csv", type=AssetTypes.URI_FILE, mode=InputOutputModes.DIRECT)
),
outputs=dict(output=Output(type="uri_folder", mode=InputOutputModes.DIRECT)),
args="--file_input ${{inputs.file_input}} --output ${{outputs.output}}",
resources={"instance_type": "standard_e4s_v3", "runtime_version": "3.2.0"},
)
# Define pipeline
@dsl.pipeline(description="submit a pipeline with spark job")
def spark_pipeline_from_builder(data):
add_greeting_column = first_step(file_input=data)
count_by_row = second_step(file_input=data)
return {"output": count_by_row.outputs.output}
pipeline = spark_pipeline_from_builder(
data=Input(path="/dataset/iris.csv", type=AssetTypes.URI_FILE, mode=InputOutputModes.DIRECT),
)
Azure SDK for Python