Nasazení služby Azure Databricks ve vlastní virtuální síti Azure (injektáž virtuální sítě)
Tento článek popisuje, jak nasadit pracovní prostor Azure Databricks ve vlastní virtuální síti Azure, označované také jako injektáž virtuální sítě.
Přizpůsobení sítě pomocí injektáže virtuální sítě
Azure Databricks je ve výchozím nasazení spravovaná služba v Azure. Virtuální síť Azure se nasadí do uzamčené skupiny prostředků. Všechny klasické prostředky roviny výpočetních prostředků jsou přidružené k této virtuální síti. Pokud potřebujete přizpůsobení sítě, můžete nasadit prostředky klasické výpočetní roviny Azure Databricks ve vlastní virtuální síti. To umožňuje:
- Připojení Azure Databricks k jiným službám Azure (jako je Azure Storage) bezpečnějším způsobem pomocí koncových bodů služeb nebo privátních koncových bodů Azure.
- Připojte se k místním zdrojům dat pomocí uživatelsky definovaných tras. Viz Nastavení trasy definované uživatelem pro Azure Databricks.
- Připojte Azure Databricks k síťovému virtuálnímu zařízení, abyste zkontrolovali veškerý odchozí provoz a provedli akce podle pravidel povolení a deny. Viz možnost: Směrování provozu Azure Databricks pomocí virtuálního zařízení nebo brány firewall
- Nakonfigurujte Azure Databricks tak, aby používala vlastní DNS. Viz možnost: Konfigurace vlastního DNS.
- Nakonfigurujte pravidla skupiny zabezpečení sítě (NSG) pro určení omezení odchozího provozu.
Nasazení prostředků klasické výpočetní roviny Azure Databricks do vlastní virtuální sítě vám také umožní využívat flexibilní rozsahy CIDR. Pro virtuální síť můžete použít velikost /16
-/24
rozsahu CIDR . Pro podsítě použijte rozsahy IP adres tak malé jako /26
.
Důležité
Virtuální síť přidruženou k existujícímu pracovnímu prostoru Azure Databricks nemůžete nahradit. Pokud má virtuální síť vašeho aktuálního pracovního prostoru nedostatečnou kapacitu pro požadovaný počet aktivních uzlů clusteru, postupujte takto:
- Pro pracovní prostory vložené do virtuální sítě: Rozbalte rozsah CIDR podsítě: Pokud chcete zvýšit dostupný adresní prostor IP adres pro váš pracovní prostor, můžete požádat o update do rozsahu CIDR podsítě pracovního prostoru. Pokud chcete tyto změny provést, obraťte se na tým účtu Azure Databricks.
- Pro pracovní prostory, které nejsou vloženy do virtuální sítě: Vytvořte nový pracovní prostor ve větší virtuální síti, který může vyhovovat vašim požadavkům na úlohy. Pokud chcete přenést existující prostředky do nového pracovního prostoru, postupujte podle těchto podrobných kroků migrace.
Požadavky na virtuální síť
Virtuální síť, kterou nasadíte do pracovního prostoru Azure Databricks, musí splňovat následující požadavky:
- Oblast: Virtuální síť se musí nacházet ve stejné oblasti a předplatném jako pracovní prostor Azure Databricks.
- Předplatné: Virtuální síť musí být ve stejném předplatném jako pracovní prostor Azure Databricks.
-
Adresní prostor: Blok CIDR mezi
/16
virtuální sítí a/24
blokem CIDR až/26
pro dvě podsítě: podsíť kontejneru a podsíť hostitele. Pokyny k maximálnímu počtu uzlů clusteru na základě velikosti virtuální sítě a jejích podsítí najdete v tématu Adresní prostor a maximální počet uzlů clusteru. - Podsítě: Virtuální síť musí obsahovat dvě podsítě vyhrazené pro váš pracovní prostor Azure Databricks: podsíť kontejneru (někdy označovanou jako privátní podsíť) a podsíť hostitele (někdy označovanou jako veřejná podsíť). Když nasadíte pracovní prostor pomocí zabezpečeného připojení ke clusteru, podsíť kontejneru i podsíť hostitele používají privátní IP adresy. Podsítě nemůžete sdílet mezi pracovními prostory ani nasazovat jiné prostředky Azure do podsítí, které používá váš pracovní prostor Azure Databricks. Pokyny k maximálnímu počtu uzlů clusteru na základě velikosti virtuální sítě a jejích podsítí najdete v tématu Adresní prostor a maximální počet uzlů clusteru.
Adresní prostor a maximální počet uzlů clusteru
Pracovní prostor s menší virtuální sítí může běžet rychleji než pracovní prostor s větší virtuální sítí. Použijte blok CIDR mezi /16
virtuální sítí a /24
blokem CIDR až /26
pro dvě podsítě (podsíť kontejneru a podsíť hostitele). Blok CIDR můžete vytvořit až /28
pro vaše podsítě, ale Databricks nedoporučuje podsíť menší než /26
.
Rozsah CIDR pro adresní prostor vaší virtuální sítě ovlivňuje maximální počet uzlů clusteru, které může váš pracovní prostor používat.
Pracovní prostor Azure Databricks vyžaduje ve virtuální síti dvě podsítě: podsíť kontejneru a podsíť hostitele. Azure si v každé podsíti vyhrazuje pět IP adres. Azure Databricks vyžaduje pro každý uzel clusteru dvě IP adresy: jednu IP adresu hostitele v podsíti hostitele a jednu IP adresu kontejneru v podsíti kontejneru.
- Možná nebudete chtít použít celý adresní prostor vaší virtuální sítě. Můžete například chtít vytvořit více pracovních prostorů v jedné virtuální síti. Protože nemůžete sdílet podsítě mezi pracovními prostory, můžete chtít podsítě, které nepoužívají celkový adresní prostor virtuální sítě.
- Adresní prostor je nutné přidělit pro dvě nové podsítě, které jsou v adresních prostorech virtuální sítě a nepřekrývají adresní prostor aktuálních nebo budoucích podsítí v dané virtuální síti.
Následující table ukazuje maximální velikost podsítě na základě velikosti sítě. Tato table předpokládá, že neexistují žádné další podsítě, které zabírají adresní prostor. Pokud máte existující podsítě nebo chcete rezervovat adresní prostor pro jiné podsítě, použijte menší podsítě:
Adresní prostor virtuální sítě (CIDR) | Maximální velikost podsítě Azure Databricks (CIDR) za předpokladu, že žádné jiné podsítě |
---|---|
/16 |
/17 |
/17 |
/18 |
/18 |
/19 |
/20 |
/21 |
/21 |
/22 |
/22 |
/23 |
/23 |
/24 |
/24 |
/25 |
Pokud chcete najít maximální počet uzlů clusteru na základě velikosti podsítě, použijte následující table. IP adresy na podsíť column zahrnují pět IP adres rezervovaných Azurem. Úplně vpravo column označuje počet uzlů clusteru, které mohou současně běžet v pracovním prostoru, jenž je zřízen s podsítěmi této velikosti.
Velikost podsítě (CIDR) | IP adresy na podsíť | Maximální počet uzlů clusteru Azure Databricks |
---|---|---|
/17 |
32768 | 32763 |
/18 |
16384 | 16379 |
/19 |
8192 | 8187 |
/20 |
4096 | 4091 |
/21 |
2048 | 2043 |
/22 |
1024 | 1019 |
/23 |
512 | 507 |
/24 |
256 | 251 |
/25 |
128 | 123 |
/26 |
64 | 59 |
Výchozí IP adresy při použití zabezpečeného připojení ke clusteru
Pokud povolíte zabezpečené připojení clusteru ve vašem pracovním prostoru, který používá injektáž virtuální sítě, databricks doporučuje, aby váš pracovní prostor má stabilní veřejnou IP adresu výchozího přenosu dat.
Stabilní veřejné IP adresy pro výchozí přenos dat jsou užitečné, protože je můžete přidat do externích seznamů povolených přenosů dat. Pokud se například chcete připojit z Azure Databricks k Salesforce se stabilní odchozí IP adresou. Pokud konfigurujete přístupové seznamy IP adres, musí se tyto veřejné IP adresy přidat do listpovolení . Viz Konfigurace přístupových seznamů IP adres pro pracovní prostory.
Upozorňující
Microsoft oznámil, že 30. září 2025 se výchozí odchozí přístup pro virtuální počítače v Azure vyřadí z důchodu. Podívejte se na toto oznámení. To znamená, že pracovní prostory Azure Databricks, které místo stabilní veřejné IP adresy odchozích přenosů používají výchozí odchozí přístup, nemusí po tomto datu dál fungovat. Databricks doporučuje přidat explicitní odchozí metody pro pracovní prostory před tímto datem.
Pokud chcete nakonfigurovat stabilní veřejnou IP adresu výchozího přenosu dat, přečtěte si téma Výchozí přenos dat pomocí injektáže virtuální sítě.
Sdílené prostředky a partnerský vztah
Pokud se vyžadují sdílené síťové prostředky, jako je DNS, databricks důrazně doporučuje dodržovat osvědčené postupy Azure pro hvězdicový model. Pomocí partnerského vztahu virtuálních sítí virtuálních sítí můžete rozšířit privátní IP prostor virtuální sítě pracovního prostoru do centra a zachovat paprsky oddělené od sebe.
Pokud máte ve virtuální síti další prostředky nebo používáte propojení, Databricks důrazně doporučuje přidat Deny pravidla do skupin zabezpečení sítě (NSG), které jsou připojeny k jiným sítím a podsítím ve stejné virtuální síti nebo které jsou propojené s danou virtuální sítí. Přidejte pravidla Deny pro connections pro příchozí i odchozí connections, aby limitconnections na výpočetní prostředky Azure Databricks i z nich. Pokud váš cluster potřebuje přístup k prostředkům v síti, přidejte pravidla, která umožňují pouze minimální množství přístupu potřebného ke splnění požadavků.
Související informace najdete v tématu Pravidla skupiny zabezpečení sítě.
Vytvoření pracovního prostoru Azure Databricks pomocí webu Azure Portal
Tato část popisuje, jak vytvořit pracovní prostor Azure Databricks na webu Azure Portal a nasadit ho ve vlastní existující virtuální síti. Azure Databricks aktualizuje virtuální síť o dvě nové podsítě, pokud ještě neexistují, pomocí vámi zadaných rozsahů CIDR. Služba také aktualizuje podsítě novou skupinou zabezpečení sítě, konfigurací příchozích a odchozích pravidel a nakonec nasadí pracovní prostor do aktualizované virtuální sítě. Pokud chcete mít větší kontrolu nad konfigurací virtuální sítě, použijte místo portálu šablony Azure Resource Manageru (ARM) dodané v Azure Databricks. Můžete například použít existující skupiny zabezpečení sítě nebo vytvořit vlastní pravidla zabezpečení. Viz Pokročilá konfigurace pomocí šablon Azure Resource Manageru.
Uživatel, který pracovní prostor vytvoří, musí mít přiřazenou roli Přispěvatel sítě k příslušné virtuální síti nebo vlastní roli, která má přiřazená Microsoft.Network/virtualNetworks/subnets/join/action
oprávnění.Microsoft.Network/virtualNetworks/subnets/write
Musíte nakonfigurovat virtuální síť, do které nasadíte pracovní prostor Azure Databricks. Můžete použít existující virtuální síť nebo vytvořit novou, ale virtuální síť musí být ve stejné oblasti a stejném předplatném jako pracovní prostor Azure Databricks, který plánujete vytvořit. Virtuální síť musí mít velikost v rozsahu CIDR mezi /16 a /24. Další požadavky najdete v tématu Požadavky na virtuální síť.
Při konfiguraci pracovního prostoru použijte existující podsítě nebo zadejte názvy a rozsahy IP adres pro nové podsítě.
Na webu Azure Portal selecta vytvořte prostředek > Analytics > Azure Databricks nebo vyhledejte Azure Databricks a kliknutím na Vytvořit nebo + Přidat spusťte dialogové okno Azure Databricks Service.
Postupujte podle kroků konfigurace popsaných v pracovním prostoru Azure Databricks ve vlastním rychlém startu pro virtuální síť .
Na kartě
Sítě virtuální síť, kterou chcete použít v poli virtuální sítě . Důležité
Pokud v nástroji pro výběr nevidíte název sítě, ověřte, že oblast Azure, kterou jste zadali pro pracovní prostor, odpovídá oblasti Azure požadované virtuální sítě.
virtuální sítě
Pojmenujte své podsítě a zadejte rozsahy CIDR v bloku až do velikosti
/26
. Pokyny k maximálnímu počtu uzlů clusteru na základě velikosti virtuální sítě a jejích podsítí najdete v tématu Adresní prostor a maximální počet uzlů clusteru. Rozsahy CIDR podsítě nelze po nasazení pracovního prostoru změnit.- Pokud chcete zadat existující podsítě, zadejte přesné názvy existujících podsítí. Při použití existujících podsítí také set rozsahy IP adres ve formuláři pro vytvoření pracovního prostoru tak, aby přesně odpovídaly rozsahům IP adres existujících podsítí.
- Pokud chcete vytvořit nové podsítě, zadejte názvy podsítí, které v této virtuální síti ještě neexistují. Podsítě se vytvoří se zadanými rozsahy IP adres. Rozsahy IP adres musíte zadat v rozsahu IP adres vaší virtuální sítě a ještě není přiděleno existujícím podsítím.
Azure Databricks vyžaduje, aby názvy podsítí nebyly delší než 80 znaků.
Pravidla skupiny zabezpečení sítě přidružená k podsítím get, která obsahují pravidlo pro povolení interní komunikace v rámci clusteru. Azure Databricks má delegovaná oprávnění k update obou podsítí prostřednictvím poskytovatele prostředků
Microsoft.Databricks/workspaces
. Tato oprávnění platí jenom pro pravidla skupiny zabezpečení sítě, která vyžaduje Azure Databricks, ne pro jiná pravidla skupiny zabezpečení sítě, která přidáte, nebo do výchozích pravidel skupiny zabezpečení sítě, která jsou součástí všech skupin zabezpečení sítě.Kliknutím na Vytvořit nasadíte pracovní prostor Azure Databricks do virtuální sítě.
Pokročilá konfigurace pomocí šablon Azure Resource Manageru
Pokud chcete mít větší kontrolu nad konfigurací virtuální sítě, použijte místo automatické konfigurace virtuální sítě založené na uživatelském rozhraní portálu a nasazení pracovního prostoru následující šablony Azure Resource Manageru (ARM). Můžete například použít existující podsítě, existující skupinu zabezpečení sítě nebo přidat vlastní pravidla zabezpečení.
Pokud k nasazení pracovního prostoru do existující virtuální sítě používáte vlastní šablonu Azure Resource Manageru nebo šablonu pracovního prostoru pro injektáž virtuální sítě Azure Databricks, musíte před nasazením pracovního prostoru vytvořit podsítě hostitele a kontejneru, připojit skupinu zabezpečení sítě ke každé podsíti a delegovat Microsoft.Databricks/workspaces
podsítě poskytovateli prostředků. Pro každý pracovní prostor, který nasazujete, musíte mít samostatnou dvojici podsítí.
Šablona all-in-one
Pokud chcete vytvořit virtuální síť a pracovní prostor Azure Databricks pomocí jedné šablony, použijte šablonu typu All-in-one pro pracovní prostory vložené do virtuální sítě Azure Databricks.
Šablona virtuální sítě
Pokud chcete vytvořit virtuální síť se správnými podsítěmi pomocí šablony, použijte šablonu virtuální sítě pro injektáž virtuální sítě Databricks.
Šablona pracovního prostoru Azure Databricks
Pokud chcete nasadit pracovní prostor Azure Databricks do existující virtuální sítě pomocí šablony, použijte šablonu pracovního prostoru pro injektáž virtuální sítě Azure Databricks.
Šablona pracovního prostoru umožňuje zadat existující virtuální síť a používat existující podsítě:
- Pro každý nasazený pracovní prostor musíte mít samostatnou dvojici podsítí hostitele nebo kontejneru. Není podporováno sdílení podsítí mezi pracovními prostory nebo nasazení dalších prostředků Azure do podsítí, které používá váš pracovní prostor Azure Databricks.
- Hostitel virtuální sítě a podsítě kontejneru musí mít připojené skupiny zabezpečení sítě a musí být před použitím této šablony Azure Resource Manageru pro nasazení pracovního prostoru delegovány do
Microsoft.Databricks/workspaces
služby. - Pokud chcete vytvořit virtuální síť s správně delegovanými podsítěmi, použijte šablonu virtuální sítě pro injektáž virtuální sítě Databricks.
- Pokud chcete použít existující virtuální síť, pokud jste ještě nedelegovali podsítě hostitele a kontejneru, přečtěte si téma Přidání nebo remove delegování podsítě.
Pravidla skupin zabezpečení sítě
Následující tables zobrazí aktuální pravidla skupiny zabezpečení sítě používaná službou Azure Databricks. Pokud Azure Databricks potřebuje přidat pravidlo nebo změnit rozsah existujícího pravidla na tomto list, obdržíte předběžné oznámení. Tento článek a tables budou aktualizovány vždy, když dojde k takové změně.
Jak Azure Databricks spravuje pravidla skupin zabezpečení sítě
Pravidla NSG uvedená v následujících částech představují ty, které Azure Databricks automaticky zřizuje a spravuje ve vaší skupině zabezpečení sítě na základě delegování hostitelů virtuální sítě a podsítí kontejnerů do Microsoft.Databricks/workspaces
služby. Nemáte oprávnění k update ani k odstranění těchto pravidel NSG a jakýkoli pokus o to je blokován delegováním podsítě. Azure Databricks musí tato pravidla vlastnit, aby microsoft mohl spolehlivě pracovat a podporovat službu Azure Databricks ve vaší virtuální síti.
Některá z těchto pravidel NSG mají virtuální síť přiřazenou jako zdroj a cíl. Tato funkce byla implementována, aby se zjednodušil návrh bez značky služby na úrovni podsítě v Azure. Všechny clustery jsou chráněny druhou vrstvou zásad sítě interně, aby se cluster A nemohl připojit ke clusteru B ve stejném pracovním prostoru. To platí i pro více pracovních prostorů, pokud jsou vaše pracovní prostory nasazené do jiné dvojice podsítí ve stejné virtuální síti spravované zákazníkem.
Důležité
Databricks důrazně doporučuje přidat pravidla Deny do skupin zabezpečení sítě (NSG), které jsou připojené k jiným sítím a podsítím ve stejné virtuální síti nebo jsou v partnerském vztahu k této virtuální síti. Přidejte pravidla Deny pro connections pro příchozí i odchozíconnections, aby limitconnections i z výpočetních prostředků Azure Databricks. Pokud váš cluster potřebuje přístup k prostředkům v síti, přidejte pravidla, která umožňují pouze minimální množství přístupu potřebného ke splnění požadavků.
Pravidla skupiny zabezpečení sítě pro pracovní prostory
Informace v této části platí jenom pro pracovní prostory Azure Databricks vytvořené po 13. lednu 2020. Pokud byl váš pracovní prostor vytvořen před vydáním zabezpečeného připojení ke clusteru (SCC) 13. ledna 2020, přečtěte si další část.
Tato table uvádí pravidla skupiny zabezpečení sítě pro pracovní prostory a obsahuje dvě příchozí pravidla skupiny zabezpečení, která jsou zahrnutá jenom v případě, že zabezpečené připojení clusteru (SCC) zakázáno.
Směr | Protokol | Zdroj | Zdrojový port | Cíl | Dest Port | Used (užíván) |
---|---|---|---|---|---|---|
Příchozí | Všechny | VirtualNetwork | Všechny | VirtualNetwork | Všechny | Výchozí |
Příchozí | TCP | AzureDatabricks (značka služby) Pouze v případě, že je SCC zakázaný |
Všechny | VirtualNetwork | 22 | Veřejná IP adresa |
Příchozí | TCP | AzureDatabricks (značka služby) Pouze v případě, že je SCC zakázaný |
Všechny | VirtualNetwork | 5557 | Veřejná IP adresa |
Odchozí | TCP | VirtualNetwork | Všechny | AzureDatabricks (značka služby) | 443, 3306, 8443-8451 | Výchozí |
Odchozí | TCP | VirtualNetwork | Všechny | SQL | 3306 | Výchozí |
Odchozí | TCP | VirtualNetwork | Všechny | Úložiště | 443 | Výchozí |
Odchozí | Všechny | VirtualNetwork | Všechny | VirtualNetwork | Všechny | Výchozí |
Odchozí | TCP | VirtualNetwork | Všechny | Centrum událostí | 9093 | Výchozí |
Poznámka:
Pokud omezíte pravidla odchozích přenosů, databricks doporučuje otevřít porty 111 a 2049, aby se povolily určité instalace knihoven.
Důležité
Azure Databricks je služba Microsoft Azure první strany, která je nasazená v infrastruktuře globálního veřejného cloudu Azure. Veškerá komunikace mezi komponentami služby, včetně mezi veřejnými IP adresami v řídicí rovině a výpočetní rovinou zákazníka, zůstávají v páteřní síti Microsoft Azure. Viz také globální síť Microsoftu.
Řešení potíží
Chyby při vytváření pracovního prostoru
Podsíť <subnet-id>
vyžaduje, aby odkaz na odkaz na propojení přidružení služeb některé z následujících delegování [Microsoft.Databricks/workspaces]
Možná příčina: Vytváříte pracovní prostor ve virtuální síti, jejíž podsítě hostitele a kontejneru nebyly delegovány do Microsoft.Databricks/workspaces
služby. Každá podsíť musí mít připojenou skupinu zabezpečení sítě a musí být správně delegovaná. Další informace najdete v tématu Požadavky na virtuální síť.
Podsíť <subnet-id>
se už používá v pracovním prostoru. <workspace-id>
Možná příčina: Vytváříte pracovní prostor ve virtuální síti s podsítěmi hostitelů a kontejnerů, které už používají existující pracovní prostor Azure Databricks. V rámci jedné podsítě nelze sdílet několik pracovních prostorů. Pro každý pracovní prostor, který nasazujete, musíte vytvořit novou dvojici podsítí hostitele a kontejneru.
Řešení problému
Nedostupné instance: Prostředky nebyly dostupné přes SSH.
Možná příčina: provoz z řídicí roviny do pracovních procesů je zablokovaný. Pokud nasazujete do stávající virtuální sítě připojené k vaší místní síti, zkontrolujte nastavení pomocí informací uvedených v části Připojení pracovního prostoru Azure Databricks k vlastní místní síti.
Neočekávané selhání spuštění: Při nastavování clusteru byla zjištěna neočekávaná chyba. Zkuste to znovu, a pokud problém přetrvává, obraťte se na tým Azure Databricks. Vnitřní chybová zpráva: Timeout while placing node
.
Možná příčina: Provoz z pracovních procesů do koncových bodů služby Azure Storage je zablokovaný. Pokud používáte vlastní servery DNS, zkontrolujte také stav serverů DNS ve virtuální síti.
Selhání spuštění poskytovatele cloudu: Při nastavování clusteru došlo k chybě poskytovatele cloudu. Další informace najdete v průvodci službou Azure Databricks. Kód chyby Azure: AuthorizationFailed/InvalidResourceReference.
Možná příčina: Virtuální síť nebo podsítě už neexistují. Ujistěte se, že virtuální síť a podsítě existují.
Cluster se ukončil. Důvod: Selhání spuštění Sparku: Spark se nepodařilo spustit včas. Příčinou tohoto problému mohou být nefunkční metastore Hive, neplatné konfigurace Sparku nebo chybné inicializační skripty. Pokud chcete tento problém vyřešit, projděte si protokoly ovladačů Sparku, a pokud problém přetrvává, obraťte se na Databricks. Vnitřní chybová zpráva: Spark failed to start: Driver failed to start in time
.
Možná příčina: Kontejner nemůže komunikovat s hostující instancí nebo účtem úložiště pracovního prostoru. Opravte to tak, že do podsítí pro účet úložiště pracovního prostoru přidáte vlastní trasu s dalším segmentem směrování, který je internet.