core 套件
包含 Azure Machine Learning 管線的核心功能,這些管線是可設定的機器學習工作流程。
Azure Machine Learning 管線可讓您建立可重複使用的機器學習工作流程,以作為機器學習案例的範本。 此套件包含使用 Azure ML 管線的核心功能,通常與封裝中的 steps 類別一起使用。
機器學習管線是由可排序和平行化的物件集合 PipelineStep 表示,或是在步驟之間使用明確相依性來建立。 管線步驟可用來定義 Pipeline 物件,代表要執行的工作流程。 您可以在 Jupyter Notebook 或任何其他已安裝 Azure ML SDK 的 IDE 中建立及使用管線。
Azure ML 管線可讓您專注於機器學習,而不是基礎結構。 若要開始建置管線,請參閱 https://aka.ms/pl-first-pipeline。
如需 Machine Learning 管線的優點及其與 Azure 提供之其他管線相關的詳細資訊,請參閱 什麼是 Azure Machine Learning 服務中的 ML 管線?
單元
builder |
定義用來建置 Azure Machine Learning 管線的類別。 管線圖形是由管線步驟所組成, () PipelineStep 、選擇性管線數據 (PipelineData) 在每個步驟中產生或取用,以及選擇性的步驟執行順序 (StepSequence) 。 |
graph |
定義用來建構 Azure Machine Learning 管線圖形的類別。 當您使用 PipelineStep (和衍生類別時,會針對Pipeline物件建立 Azure ML 管線圖形,) 、 PipelineData和 PipelineData 物件。 在一般使用案例中,您不需要直接使用本課程模組中的類別。 管線執行圖表是由模組節點所組成,這些節點代表數據源或步驟等基本單位。 節點可以有輸入埠和輸出埠,以及相關聯的參數。 邊緣會定義圖形中兩個節點埠之間的關聯性。 |
module |
包含用來建立和管理 Azure Machine Learning 管線可重複使用計算單位的類別。 模組可讓您在 中 Pipeline建立計算單位,其可以有輸入、輸出,並依賴參數和環境組態來運作。 模組可以進行版本設定,並用於不同的 Azure Machine Learning 管線,與 (和衍生類別不同 PipelineStep ,) 用於一個管線中。 模組的設計目的是要重複使用於數個管線中,而且可以演進以針對不同的使用案例調整特定的計算邏輯。 管線中的步驟可用於快速反覆專案來改善演算法,一旦達到目標,演算法通常會發佈為模組以啟用重複使用。 |
module_step_base |
包含使用 版本將步驟新增至管線的功能 Module。 |
pipeline |
定義類別,以建立可重複使用的 Azure Machine Learning 工作流程。 |
pipeline_draft |
定義用來管理可變動管線的類別。 |
pipeline_endpoint |
定義用於管理管線的類別,包括版本設定和端點。 |
pipeline_output_dataset |
包含將中繼輸出升階至 Azure Machine Learning 數據集的功能。 根據預設,管線中的元數據 (輸出) 將不會變成 Azure Machine Learning 數據集。 若要將元數據提升至 Azure Machine Learning 數據集,請在 PipelineData 類別上呼叫 as_dataset 方法以傳回 PipelineOutputFileDataset 物件。 然後,您可以從 PipelineOutputFileDataset 物件建立 PipelineOutputTabularDataset 物件。 |
run |
定義送出管線的類別,包括用來檢查狀態和擷取執行詳細數據的類別。 |
schedule |
定義類別,以排程 Azure Machine Learning 管線的提交。 |
類別
InputPortBinding |
定義從來源到管線步驟輸入的系結。 InputPortBinding 可作為步驟的輸入。 來源可以是 PipelineData、 PortDataReference、 DataReference、 PipelineDataset或 OutputPortBinding。 InputPortBinding 對於指定步驟輸入的名稱很有用,如果它應該與系結對象的名稱不同, (亦即,為了避免重複的輸入/輸出名稱,或因為步驟腳本需要輸入具有特定名稱) 。 它也可以用來指定輸入的bind_mode PythonScriptStep 。 初始化 InputPortBinding。 |
Module |
表示 Azure Machine Learning 管線中使用的計算單位。 模組是將在計算目標上執行的檔案集合,以及介面的描述。 檔案集合可以是腳本、二進位檔,或計算目標上執行所需的任何其他檔案。 模組介面描述輸入、輸出和參數定義。 它不會將它們系結至特定值或數據。 模組有與其相關聯的快照集,它會擷取為模組定義的檔案集合。 初始化模組。 |
ModuleVersion |
表示內 Module的實際計算單位。 您不應該直接使用此類別。 請改用 類別的 Module 其中一個發佈方法。 初始化ModuleVersion。 |
ModuleVersionDescriptor |
定義的版本和識別碼 ModuleVersion。 初始化 ModuleVersionDescriptor。 |
OutputPortBinding |
定義管線步驟的具名輸出。 OutputPortBinding 可用來指定步驟所產生的數據類型,以及如何產生數據。 它可用來 InputPortBinding 指定步驟輸出是另一個步驟的必要輸入。 初始化 OutputPortBinding。 |
Pipeline |
表示可當做可重複使用的 Azure Machine Learning 工作流程執行的步驟集合。 使用管線來建立和管理結合各種機器學習階段的工作流程。 每個機器學習階段,例如數據準備和模型定型,都可以由管線中的一或多個步驟所組成。 如需使用管線的原因和時機概觀,請參閱 https://aka.ms/pl-concept。 如需建構管線的概觀,請參閱 https://aka.ms/pl-first-pipeline。 初始化管線。 |
PipelineData |
代表 Azure Machine Learning 管線中的元數據。 管線中使用的數據可由一個步驟產生,另一個步驟是提供 PipelineData 物件做為一個步驟的輸出,以及一或多個後續步驟的輸入。 請注意 ,如果您使用管線數據,請確定所使用的目錄已存在。 若要確保目錄存在,Python 範例假設您在一個管線步驟中有名為 output_folder 的輸出埠,您想要將此資料夾中的一些數據寫入相對路徑。
PipelineData 會使用不再建議的數據存取和傳遞方法 DataReference 基礎,請改用 OutputFileDatasetConfig ,您可以在這裡找到範例: 使用 OutputFileDatasetConfig 的管線。 初始化 PipelineData。 |
PipelineDataset |
做為數據集和管線的配接器。 注意 這個類別已被取代。 了解如何使用具有管線的資料集,請參閱 https://aka.ms/pipeline-with-dataset。 這是內部類別。 您不應該直接建立這個類別,而是在 Dataset 或 OutputDatasetConfig 類別上呼叫 as_* 實例方法。 做為數據集和管線的配接器。 這是內部類別。 您不應該直接建立這個類別,而是在 Dataset 或 OutputDatasetConfig 類別上呼叫 as_* 實例方法。 |
PipelineDraft |
表示可用來提交執行和建立已發佈管線的可變管線。 使用 PipelineDrafts 逐一查看 Pipelines。 PipelineDrafts 可以從頭開始建立、另一個 PipelineDraft 或現有的管線: Pipeline、 PublishedPipeline或 PipelineRun。 初始化 PipelineDraft。 |
PipelineEndpoint |
表示可從唯一 Pipeline 端點 URL 觸發的工作流程。 PipelineEndpoints 可用來建立 新版本, PublishedPipeline 同時維護相同的端點。 PipelineEndpoints 在工作區內唯一命名。 使用 PipelineEndpoint 物件的端點屬性,您可以使用 REST 呼叫,從外部應用程式觸發新的管線執行。 如需如何呼叫 REST 端點時進行驗證的資訊,請參閱 https://aka.ms/pl-restep-auth。 如需建立和執行機器學習管線的詳細資訊,請參閱 https://aka.ms/pl-first-pipeline。 初始化 PipelineEndpoint。 |
PipelineParameter |
定義管線執行中的參數。 使用 PipelineParameters 來建構多種管線,稍後可以使用不同的參數值重新提交。 初始化管線參數。 |
PipelineRun |
表示的執行 Pipeline。 這個類別可用來管理、檢查狀態,以及在提交管線執行后擷取執行詳細數據。 使用 get_steps 來擷取 StepRun 管線執行所建立的物件。 其他用途包括擷 Graph 取與管線執行相關聯的物件、擷取管線執行的狀態,以及等候執行完成。 初始化管線執行。 |
PipelineStep |
代表 Azure Machine Learning 管線中的執行步驟。 管線是由多個管線步驟所建構,這些步驟是管線中的不同計算單位。 每個步驟都可以獨立執行,並使用隔離的計算資源。 每個步驟通常都有自己的具名輸入、輸出和參數。 PipelineStep 類別是基類,其他專為常見案例所設計之內建步驟類別繼承的基類,例如 PythonScriptStep、 DataTransferStep和 HyperDriveStep。 如需管線和 PipelineSteps 相關概觀,請參閱 什麼是 ML 管線。 初始化 PipelineStep。 |
PortDataReference |
建立與已完成 StepRun 輸出關聯的模型數據。 PortDataReference 物件可用來下載 所產生的 StepRun輸出數據。 它也可以用來作為未來管線中的步驟輸入。 初始化 PortDataReference。 |
PublishedPipeline |
表示要提交且沒有建構它的 Python 程式代碼的管線。 此外,PublishedPipeline 可用來重新提交 Pipeline 具有不同 PipelineParameter 值和輸入的 。 初始化 PublishedPipeline。 :p aram 端點 要提交此管線執行的 REST 端點 URL。 :type endpoint: str :p aram total_run_steps:此管線中的步驟數目:type total_run_steps:int :p aram 工作區:已發佈管線的工作區。 :type workspace: azureml.core.Workspace :p aram continue_on_step_failure:是否繼續執行 PipelineRun 中的其他步驟 如果步驟失敗,則預設值為 false。 |
Schedule |
定義要提交管線的排程。 發佈管線之後,排程可用來以指定的間隔或偵測到 Blob 記憶體位置的變更時提交管線。 初始化排程。 |
ScheduleRecurrence |
定義管線 Schedule的頻率、間隔和開始時間。 ScheduleRecurrence 也可讓您指定時區,以及週期的時數或分鐘或周數。 初始化排程週期。 它也允許指定時區,以及週期的時數或分鐘或周天。 |
StepRun |
中的 Pipeline步驟執行。 一旦提交父管線執行,且管線已提交步驟執行,即可使用這個類別來管理、檢查狀態和擷取執行詳細數據。 初始化 StepRun。 |
StepRunOutput |
表示管線中 建立的輸出 StepRun 。 StepRunOutput 可用來存取 PortDataReference 步驟所建立的 。 初始化 StepRunOutput。 |
StepSequence |
代表 中的 Pipeline 步驟清單,以及執行步驟的順序。 初始化管線時,請使用 StepSequence 來建立包含特定順序執行步驟的工作流程。 初始化 StepSequence。 |
TrainingOutput |
定義特定 PipelineSteps 的特製化輸出,以用於管線。 TrainingOutput 可讓自動化機器學習計量或模型成為 Azure Machine Learning 管線中另一個步驟所取用的步驟輸出。 可以搭配 或HyperDriveStep使用AutoMLStep。 初始化 TrainingOutput。 param model_file:要包含在輸出中的特定模型檔案。 只適用於 HyperDriveStep 。 |
列舉
TimeZone |
列舉週期 Schedule的有效時區。 |