Porovnání Datoví technici prostředků infrastruktury a Azure Synapse Sparku
Toto porovnání mezi prostředky infrastruktury Datoví technici a Azure Synapse Spark poskytuje souhrn klíčových funkcí a podrobnou analýzu napříč různými kategoriemi, mezi které patří fondy Sparku, konfigurace, knihovny, poznámkové bloky a definice úloh Sparku.
Následující tabulka porovnává Azure Synapse Spark a Fabric Spark v různých kategoriích:
Kategorie | Azure Synapse Spark | Fabric Spark |
---|---|---|
Fondy úloh Sparku | Fond Sparku - - |
Vlastní fond / Starter Pořadí V Vysoká souběžnost |
Konfigurace Sparku | Úroveň fondu Úroveň definice úlohy Poznámkový blok nebo Spark |
Úroveň prostředí Úroveň definice úlohy Poznámkový blok nebo Spark |
Knihovny Sparku | Balíčky na úrovni pracovního prostoru Balíčky na úrovni fondu Vložené balíčky |
- Knihovny prostředí Vložené knihovny |
Zdroje informací | Poznámkový blok (Python, Scala, Spark SQL, R, .NET) Definice úlohy Sparku (Python, Scala, .NET) Datové kanály Synapse Aktivity kanálu (poznámkový blok, SJD) |
Poznámkový blok (Python, Scala, Spark SQL, R) Definice úlohy Sparku (Python, Scala, R) Datové kanály služby Data Factory Aktivity kanálu (poznámkový blok, SJD) |
Data | Primární úložiště (ADLS Gen2) Rezidence dat (na základě clusteru nebo oblasti) |
Primární úložiště (OneLake) Rezidence dat (kapacita/oblast) |
Metadata | Interní metastore Hive (HMS) Externí HMS (s využitím Azure SQL DB) |
Interní HMS (jezero) - |
Propojení | Typ konektoru (propojené služby) Zdroje dat Zdroj dat konn. s identitou pracovního prostoru |
Typ konektoru (DMTS) Zdroje dat - |
Zabezpečení | Řízení přístupu na základě role a přístupu Seznamy ACL úložiště (ADLS Gen2) Privátní propojení Spravovaná virtuální síť (izolace sítě) Identita pracovního prostoru Synapse Ochrana před exfiltrací dat (DEP) Značky služeb Key Vault (prostřednictvím služby mssparkutils/ propojené služby) |
Řízení přístupu na základě role a přístupu OneLake RBAC Privátní propojení Spravovaná virtuální síť Identita pracovního prostoru - Značky služeb Key Vault (prostřednictvím notebookutils) |
DevOps | Integrace Azure DevOps CI/CD (žádná integrovaná podpora) |
Integrace Azure DevOps Kanály nasazení |
Prostředí vývojáře | Integrace integrovaného vývojového prostředí (IntelliJ) Uživatelské rozhraní synapse Studia Spolupráce (pracovní prostory) Livy API ROZHRANÍ API/SADA SDK mssparkutils |
Integrace integrovaného vývojového prostředí (VS Code) Uživatelské rozhraní Fabric Spolupráce (pracovní prostory a sdílení) rozhraní API Livy ROZHRANÍ API/SADA SDK nástroje pro poznámkové bloky |
Protokolování a monitorování | Spark Advisor Integrované fondy a úlohy monitorování (prostřednictvím nástroje Synapse Studio) Server historie Sparku Prometheus/Grafana Log Analytics Účet úložiště Event Hubs |
Spark Advisor Integrované fondy a úlohy monitorování (prostřednictvím centra monitorování) Server historie Sparku - Analýza protokolů Účet úložiště Event Hubs |
Provozní kontinuita a zotavení po havárii (BCDR) | BCDR (data) ADLS Gen2 | BCDR (data) OneLake |
Důležité informace a omezení:
Integrace DMTS: DmTS nemůžete používat prostřednictvím poznámkových bloků a definic úloh Sparku.
RBAC na úrovni úloh: Prostředky infrastruktury podporují čtyři různé role pracovního prostoru. Další informace najdete v tématu Role v pracovních prostorech v Microsoft Fabric.
Spravovaná identita: Prostředky infrastruktury v současné době nepodporují spouštění poznámkových bloků a definic úloh Sparku pomocí identity pracovního prostoru nebo spravované identity pro Azure KeyVault v poznámkových blocích.
CI/CD: Můžete použít kanály rozhraní API/ sady SDK a nasazení infrastruktury.
Další důležité informace:
- JDBC: Podpora připojení JDBC není v současné době dostupná v Prostředcích infrastruktury.
Porovnání fondu Sparku
Následující tabulka porovnává fondy Azure Synapse Spark a Fabric Spark.
Nastavení Sparku | Azure Synapse Spark | Fabric Spark |
---|---|---|
Živý fond (předhřejné instance) | - | Ano, úvodní fondy |
Vlastní fond | Ano | Ano |
Verze Sparku (modul runtime) | 2.4, 3.1, 3.2, 3.3, 3.4 | 3.3, 3.4, 3.5 |
Automatické škálování | Ano | Ano |
Dynamické přidělování exekutorů | Ano, až 200 | Ano, na základě kapacity |
Upravitelné velikosti uzlů | Ano, 3–200 | Ano, 1 na kapacitě |
Minimální konfigurace uzlu | 3 uzly | 1 uzel |
Řada velikostí uzlu | Optimalizováno pro paměť, akcelerované GPU | Optimalizováno pro paměť |
Velikost uzlu | Small-XXXLarge | Small-XXLarge |
Automatické pozastavení | Ano, přizpůsobitelné minimum 5 minut | Ano, neskuteřitelné 2 minuty |
Vysoká souběžnost | No | Ano |
Pořadí V | No | Ano |
Automatické ladění Sparku | No | Ano |
Nativní prováděcí modul | No | Ano |
Limity souběžnosti | Pevný | Proměnná založená na kapacitě |
Více fondů Sparku | Ano | Ano (prostředí) |
Inteligentní mezipaměť | Ano | Ano |
Podpora rozhraní API nebo sady SDK | Ano | Ano |
Modul runtime: Prostředky infrastruktury nepodporují verze Spark 2.4, 3.1 a 3.2. Fabric Spark podporuje Spark 3.3 s Delta 2.2 v rámci modulu runtime 1.1, Spark 3.4 s Delta 2.4 v rámci modulu runtime 1.2 a Spark 3.5 s Delta 3.1 v rámci modulu runtime 1.3.
Automatické škálování: Ve Službě Azure Synapse Spark může fond škálovat až 200 uzlů bez ohledu na velikost uzlu. V prostředcích infrastruktury se maximální počet uzlů řídí velikostí a zřízenou kapacitou uzlu. Podívejte se na následující příklad skladové položky F64.
Velikost fondu Sparku Azure Synapse Spark Fabric Spark (vlastní fond, skladová položka F64) Malá Minimum: 3, Max: 200 Minimum: 1, Max: 32 Střední Minimum: 3, Max: 200 Minimum: 1, Max: 16 Velká Minimum: 3, Max: 200 Minimum: 1, Max: 8 X -Large Minimum: 3, Max: 200 Minimum: 1, Max: 4 XX-Large Minimum: 3, Max: 200 Min: 1, Max: 2 Upravitelné velikosti uzlů: Ve Službě Azure Synapse Spark můžete přejít až na 200 uzlů. V prostředcích infrastruktury závisí počet uzlů, které můžete mít ve vlastním fondu Sparku, na velikosti uzlu a kapacitě prostředků infrastruktury. Kapacita je míra výpočetního výkonu, který můžete použít v Azure. Jedním ze způsobů, jak si to představit, je, že dvě virtuální jádra Sparku (jednotka výpočetního výkonu Sparku) se rovná jedné kapacitní jednotce. Skladová položka kapacity infrastruktury F64 má například 64 jednotek kapacity, což odpovídá 128 virtuálním jádrům Sparku. Pokud tedy zvolíte malou velikost uzlu, můžete mít ve fondu až 32 uzlů (128/4 = 32). Pak celkový počet virtuálních jader v kapacitě nebo virtuálních jádrech na velikost uzlu = celkový počet dostupných uzlů. Další informace najdete ve výpočetních prostředcích Sparku.
Řada velikostí uzlu: Fondy Prostředků Sparku podporují pouze rodinu velikostí uzlů optimalizovaných pro paměť. Pokud ve službě Azure Synapse používáte fond Spark s akcelerovanými gpu, nejsou dostupné v prostředcích infrastruktury.
Velikost uzlu: Velikost xx-velkého uzlu se dodává se 432 GB paměti v Azure Synapse, zatímco stejná velikost uzlu má v prostředcích infrastruktury 512 GB včetně 64 virtuálních jader. Zbývající velikosti uzlů (malé až x velké) mají stejné virtuální jádra a paměť v Azure Synapse i Fabric.
Automatické pozastavení: Pokud ho povolíte ve službě Azure Synapse Spark, fond Apache Spark se po zadané době nečinnosti automaticky pozastaví. Toto nastavení je možné konfigurovat v Azure Synapse (minimálně 5 minut), ale vlastní fondy mají po vypršení platnosti relace nekonfigurovatelné výchozí automatické pozastavení po dobu 2 minut . Výchozí vypršení platnosti relace je v prostředcích infrastruktury nastaveno na 20 minut.
Vysoká souběžnost: Prostředky infrastruktury podporují vysokou souběžnost v poznámkových blocích. Další informace najdete v tématu Režim vysoké souběžnosti v Fabric Sparku.
Omezení souběžnosti: Z hlediska souběžnosti má Azure Synapse Spark limit 50 souběžných spuštěných úloh na fond Sparku a 200 úloh ve frontě na fond Sparku. Maximální počet aktivních úloh je 250 na fond Sparku a 1 000 na pracovní prostor. V Microsoft Fabric Sparku definují skladové položky kapacity limity souběžnosti. Skladové položky mají různá omezení maximálního počtu souběžných úloh v rozsahu od 1 do 512. Fabric Spark má také dynamický systém omezování založený na rezervách, který umožňuje spravovat souběžnost a zajistit hladký provoz i v době špičky. Další informace najdete v tématu Omezení souběžnosti a zařazení do fronty v kapacitách Microsoft Fabric Spark a Fabric.
Více fondů Sparku: Pokud chcete mít více fondů Sparku, použijte prostředí Prostředků infrastruktury k výběru fondu podle poznámkového bloku nebo definice úlohy Sparku. Další informace najdete v tématu Vytvoření, konfigurace a použití prostředí v Microsoft Fabric.
Poznámka:
Zjistěte, jak migrovat fondy Azure Synapse Spark do prostředků infrastruktury.
Porovnání konfigurací Sparku
Konfigurace Sparku je možné použít na různých úrovních:
- Úroveň prostředí: Tyto konfigurace se používají jako výchozí konfigurace pro všechny úlohy Sparku v prostředí.
- Vložená úroveň: Nastavte konfigurace Sparku vložené pomocí poznámkových bloků a definic úloh Sparku.
Obě možnosti jsou sice podporované v Azure Synapse Sparku a prostředcích infrastruktury, ale je potřeba vzít v úvahu některé aspekty:
Konfigurace Sparku | Azure Synapse Spark | Fabric Spark |
---|---|---|
Úroveň prostředí | Ano, fondy | Ano, prostředí |
Na řádku | Ano | Ano |
Import/export | Ano | Ano (.yml z prostředí) |
Podpora rozhraní API nebo sady SDK | Ano | Ano |
Úroveň prostředí: Ve službě Azure Synapse můžete definovat více konfigurací Sparku a přiřadit je různým fondům Spark. To můžete udělat v prostředcích infrastruktury pomocí prostředí.
Vloženo: V Azure Synapse podporují poznámkové bloky i úlohy Sparku připojení různých konfigurací Sparku. V prostředcích infrastruktury se konfigurace na úrovni relace přizpůsobují nastavením
spark.conf.set(<conf_name>, <conf_value>)
. Pro dávkové úlohy můžete také použít konfigurace prostřednictvím SparkConf.Import/export: Tato možnost pro konfigurace Sparku je dostupná v prostředích infrastruktury.
Další důležité informace:
-
Neměnné konfigurace Sparku: Některé konfigurace Sparku jsou neměnné. Pokud se zobrazí zpráva
AnalysisException: Can't modify the value of a Spark config: <config_name>
, je daná vlastnost neměnná. - PLÁNOVAČ FAIR: Plánovač FAIR se používá v režimu vysoké souběžnosti.
- V-Order: V-Order je optimalizace času zápisu použitá u souborů parquet povolených ve výchozím nastavení ve fondech Fabric Spark.
- Optimalizovaný zápis: Optimalizovaný zápis je ve výchozím nastavení v Azure Synapse zakázaný, ale ve výchozím nastavení je povolený pro Fabric Spark.
-
Neměnné konfigurace Sparku: Některé konfigurace Sparku jsou neměnné. Pokud se zobrazí zpráva
Poznámka:
Zjistěte, jak migrovat konfigurace Sparku z Azure Synapse do prostředků infrastruktury.
Porovnání knihoven Sparku
Knihovny Sparku můžete použít na různých úrovních:
- Úroveň pracovního prostoru: Tyto knihovny nemůžete nahrát nebo nainstalovat do svého pracovního prostoru a později je přiřadit ke konkrétnímu fondu Sparku ve službě Azure Synapse.
- Úroveň prostředí: Knihovny můžete nahrát nebo nainstalovat do prostředí. Knihovny na úrovni prostředí jsou k dispozici pro všechny poznámkové bloky a definice úloh Sparku spuštěné v prostředí.
- Vložené: Kromě knihoven na úrovni prostředí můžete také zadat vložené knihovny. Například na začátku relace poznámkového bloku.
Požadavky:
Knihovna Sparku | Azure Synapse Spark | Fabric Spark |
---|---|---|
Úroveň pracovního prostoru | Ano | No |
Úroveň prostředí | Ano, fondy | Ano, prostředí |
Na řádku | Ano | Ano |
Import/export | Ano | Ano |
Podpora rozhraní API nebo sady SDK | Ano | Ano |
-
Další aspekty:
- Integrované knihovny: Prostředky infrastruktury a Azure Synapse sdílejí společné jádro Sparku, ale můžou se mírně lišit v různých podpůrných knihovnách modulu runtime. Použití kódu je obvykle kompatibilní s některými výjimkami. V takovém případě mohou uživatelé potřebovat kompilaci, přidání vlastních knihoven a úpravu syntaxe. Tady najdete integrované knihovny modulu runtime Fabric Spark.
Poznámka:
Zjistěte, jak migrovat knihovny Azure Synapse Spark do prostředků infrastruktury.
Porovnání poznámkových bloků
Poznámkové bloky a definice úloh Sparku jsou primárními položkami kódu pro vývoj úloh Apache Sparku v Prostředcích infrastruktury. Mezi poznámkovými bloky Azure Synapse Spark a poznámkovými bloky Spark v prostředcích infrastruktury jsou některé rozdíly:
Funkce poznámkového bloku | Azure Synapse Spark | Fabric Spark |
---|---|---|
Import/export | Ano | Ano |
Konfigurace relace | Ano, uživatelské rozhraní a vložené | Ano, uživatelské rozhraní (prostředí) a vložené |
IntelliSense | Ano | Ano |
mssparkutils | Ano | Ano |
Prostředky poznámkového bloku | No | Ano |
Spolupracovat | No | Ano |
Vysoká souběžnost | No | Ano |
.NET pro Spark C# | Ano | No |
Podpora aktivit kanálu | Ano | Ano |
Integrovaná podpora naplánovaného spuštění | No | Ano |
Podpora rozhraní API nebo sady SDK | Ano | Ano |
mssparkutils: Vzhledem k tomu, že připojení DMTS nejsou v prostředcích infrastruktury dosud podporována, jsou podporovány pouze
getToken
agetSecret
jsou nyní podporovány v prostředcích Infrastruktury promssparkutils.credentials
.Zdroje informací o poznámkových blocích: Poznámkové bloky prostředků infrastruktury poskytují systém souborů podobný systému Unix, který vám pomůže se správou složek a souborů. Další informace najdete v tématu Použití poznámkových bloků Microsoft Fabric.
Spolupráce: Poznámkový blok Fabric je položka pro spolupráci, která podporuje více uživatelů, kteří upravují stejný poznámkový blok. Další informace najdete v tématu Použití poznámkových bloků Microsoft Fabric.
Vysoká souběžnost: V prostředcích infrastruktury můžete připojit poznámkové bloky k relaci s vysokou souběžností. Tato možnost je alternativou pro uživatele používající ThreadPoolExecutor v Azure Synapse. Další informace najdete v tématu Konfigurace režimu vysoké souběžnosti pro poznámkové bloky Fabric.
.NET pro Spark C#: Prostředky infrastruktury nepodporují .NET Spark (C#). Doporučení, že uživatelé s existujícími úlohami napsanými v jazyce C# nebo F# by měli migrovat do Pythonu nebo Scaly.
Podpora integrovaných naplánovaných spuštění: Prostředky infrastruktury podporují naplánovaná spuštění pro poznámkové bloky.
Další důležité informace:
- Funkce v poznámkovém bloku, které jsou podporované jenom v konkrétní verzi Sparku, můžete použít. Mějte na paměti, že Fabric nepodporuje Spark 2.4 a 3.1.
- Pokud váš poznámkový blok nebo úloha Sparku používá propojenou službu s různými připojeními ke zdroji dat nebo přípojnými body, měli byste úlohy Sparku upravit tak, aby používaly alternativní metody pro zpracování připojení k externím zdrojům dat a jímkách. Pomocí kódu Sparku se připojte ke zdrojům dat pomocí dostupných knihoven Sparku.
Poznámka:
Zjistěte, jak migrovat poznámkové bloky z Azure Synapse do prostředků infrastruktury.
Porovnání definic úloh Sparku
Důležité aspekty definice úloh Sparku:
Funkce úlohy Sparku | Azure Synapse Spark | Fabric Spark |
---|---|---|
PySpark | Ano | Ano |
Scala | Ano | Ano |
.NET pro Spark C# | Ano | No |
SparkR | No | Ano |
Import/export | Ano (uživatelské rozhraní) | No |
Podpora aktivit kanálu | Ano | Ano |
Integrovaná podpora naplánovaného spuštění | No | Ano |
Zásady opakování pokusů | No | Ano |
Podpora rozhraní API nebo sady SDK | Ano | Ano |
Úlohy Sparku: Můžete přenést .py/. Soubory R/JAR. Prostředky infrastruktury podporují SparkR. Definice úlohy Sparku podporuje referenční soubory, argumenty příkazového řádku, konfigurace Sparku a odkazy na lakehouse.
Import/export: V Azure Synapse můžete z uživatelského rozhraní importovat a exportovat definice úloh Sparku založené na json. Tato funkce ještě není v prostředcích infrastruktury dostupná.
.NET pro Spark C#: Prostředky infrastruktury nepodporují .NET Spark (C#). Doporučuje se ale, aby uživatelé s existujícími úlohami napsanými v jazyce C# nebo F# migrovali do Pythonu nebo Scaly.
Podpora předdefinovaných plánovaných spuštění: Prostředky infrastruktury podporují naplánovaná spuštění pro definici úlohy Sparku.
Zásady opakování: Tato možnost umožňuje uživatelům spouštět úlohy streamování strukturované ve Sparku na neomezenou dobu.
Poznámka:
Zjistěte, jak migrovat definice úloh Sparku z Azure Synapse do prostředků infrastruktury.
Porovnání metastoru Hive (HMS)
Rozdíly a aspekty metastoru Hive:
Typ HMS | Azure Synapse Spark | Fabric Spark |
---|---|---|
Interní HMS | Ano | Ano (jezero) |
Externí HMS | Ano | No |
- Externí HMS: Prostředky infrastruktury v současné době nepodporují rozhraní API katalogu a přístup k externímu metastoru Hive (HMS).
Poznámka:
Zjistěte, jak migrovat metadata HMS katalogu Azure Synapse Spark do prostředků infrastruktury.
Související obsah
- Další informace o možnostech migrace pro fondy, konfigurace, knihovny, poznámkové bloky a definice úloh Sparku
- Migrace dat a kanálů
- Migrace metadat metastoru Hive