集區組態參考
本文說明在使用 UI 建立集區時的可用設定。 若要了解如何使用 Databricks CLI 來建立集區,請參閱 Databricks CLI 命令。 若要了解如何使用 REST API 來建立集區,請參閱執行個體集區 API。
注意
如果您的工作負載支援無伺服器計算,Databricks 建議使用無伺服器計算,而不是使用集區,以利用一律開啟的可調整計算。 請參閱連線至無伺服器計算。
集區大小
建立集區時,若要控制大小,您可以設定三個參數:閒置執行個體數下限、容量上限和閒置執行個體自動終止。
閒置執行個體數下限
集區保持閒置的執行個體數目下限。 不論自動終止設定為何,這些執行個體都不會終止。 如果叢集從集區取用閒置的執行個體,Azure Databricks 會佈建其他執行個體以維持最小值。
容量上限
集區可以佈建的執行個體數目上限。 如果設定,此值會限制所有執行個體 (閒置 + 已使用)。 如果使用集區的叢集在自動縮放期間要求比此數目更多的執行個體,則要求會失敗並顯示 INSTANCE_POOL_MAX_CAPACITY_FAILURE
錯誤。
此組態為選用。 Azure Databricks 建議僅在下列情況下設定值:
- 您必須遵守一定的執行個體配額。
- 您想要防止一組工作影響另一組工作。 例如,假設您的執行個體配額為 100,您的團隊 A 和 B 需要執行工作。 您可以建立配額上限為 50 的集區 A 和配額上限為 50 的集區 B,以便兩個團隊公平地共用配額 100。
- 您需要控制成本。
閒置執行個體自動終止
執行個體閒置時間在超出 [閒置執行個體數下限] 中設定的值多長時間 (以分鐘為單位) 之後將被集區終止。
執行個體類型
集區由為新叢集做好準備的閒置執行個體和正在執行的叢集所使用的執行個體組成。 所有這些執行個體都屬於相同的執行個體提供者類型,此類型是在建立集區時選取的。
無法編輯集區的執行個體類型。 連結至集區的叢集對驅動程式和背景工作角色節點使用相同的執行個體類型。 不同的執行個體類型系列適用不同的使用案例,例如記憶體密集型工作負載或計算密集型工作負載。
Azure Databricks 在停止支援執行個體類型之前,一律會提供為期一年的淘汰通知。
注意
如果安全需求包括計算隔離,請選取 Standard_F72s_V2 執行個體作為背景工作角色類型。 這些執行個體類型表示取用整個實體主機的隔離虛擬機器,並提供支援所需的隔離等級,例如美國國防部的影響等級 5 (IL5) 工作負載。
預先載入的 Databricks Runtime 版本
您可以透過選取要在集區中閒置執行個體上載入的 Databricks Runtime 版本,來加快叢集啟動。 如果使用者在建立由集區支援的叢集時選取了該執行階段,則該叢集甚至會比未使用預先載入 Databricks Runtime 版本的集區支援的叢集更快地啟動。
將此選項設定為 [無] 會減慢叢集啟動速度,因為它會導致 Databricks Runtime 版本隨需下載至集區中的閒置執行個體。 當叢集釋放集區中的執行個體時,Databricks Runtime 版本將在這些執行個體上保持快取狀態。 使用相同 Databricks Runtime 版本的下一個叢集建立作業可能受益於此快取行為,但不能保證如此。
預先載入的 Docker 映像
如果您使用執行個體集區 API 來建立集區,則集區支援 Docker 映像。
集區標籤
集區標籤可讓您輕鬆監視組織中各種群組所使用的雲端資源的成本。 您可以在建立集區時將標籤指定為索引鍵/值組,Azure Databricks 會將這些標籤套用至 VM 和磁碟的磁碟區等雲端資源以及 DBU 使用量報告。
為了方便起見,Azure Databricks 對每個集區套用三個預設標籤:Vendor
、DatabricksInstancePoolId
和 DatabricksInstancePoolCreatorId
。 您也可以在建立集區時新增自訂標籤。 您最多可以新增 41 個自訂標籤。
自訂標籤
若要將其他標籤新增至集區,請瀏覽至 [建立集區] 頁面底部的 [標籤] 索引標籤。 按一下 [+ 新增] 按鈕,然後輸入索引鍵/值組。
集區支援的叢集會從集區組態繼承預設和自訂標籤。 如需有關集區標籤和叢集標籤如何一起運作的詳細資訊,請參閱使用標籤監視使用量。
自動縮放本機儲存體
通常很難估算特定工作會佔用的磁碟空間量。 為了讓您不必估算在建立時要連結至集區的受控磁碟的 GB 數,Azure Databricks 會自動在所有 Azure Databricks 集區上啟用自動縮放本機儲存體。
自動縮放本機儲存體時,Azure Databricks 會監視集區的執行個體上提供的可用磁碟空間量。 如果某個執行個體的磁碟空間太少,系統會在此執行個體的磁碟空間不足之前自動連結新的受控磁碟。 連結磁碟時,每個虛擬機器的總磁碟空間 (包括虛擬機器的初始本機儲存體) 上限為 5 TB。
僅當虛擬機器傳回 Azure 時,才會中斷連結已連結至虛擬機的受控磁碟。 也就是說,只要虛擬機器屬於某個集區,就永遠不會將受控磁碟從該虛擬機器中斷連結。
現成執行個體
為了節省成本,您可以透過選取 [所有現成品] 圓形按鈕來使用現成執行個體。
集區中的叢集將使用所有節點、驅動程式和背景工作角色的現成執行個體啟動 (與非集區叢集的混合隨需驅動程式和現成執行個體背景工作角色相反)。
如果現成執行個體因無法使用而收回,則隨需執行個體不會取代收回的執行個體。