Sdílet prostřednictvím


Terminologie Azure Synapse Analytics

Tento článek vás provede základními koncepty služby Azure Synapse Analytics.

Pracovní prostor Synapse

Pracovní prostor Synapse je zabezpečitelná hranice spolupráce pro provádění cloudových podnikových analýz v Azure. Pracovní prostor se nasadí v konkrétní oblasti a má přidružený účet Azure Data Lake Storage Gen2 a systém souborů pro ukládání dočasných dat. Pracovní prostor je ve skupině prostředků.

Pracovní prostor umožňuje provádět analýzy pomocí SQL a Apache Sparku. Prostředky dostupné pro analýzy SQL a Sparku jsou uspořádané do fondů SQL a Spark.

Propojené služby

Pracovní prostor může obsahovat libovolný počet propojených služeb, v podstatě připojovací řetězec definující informace potřebné pro připojení pracovního prostoru k externím prostředkům.

Synapse SQL

Synapse SQL umožňuje provádět analýzy založené na jazyku Transact-SQL (T-SQL) v pracovním prostoru Synapse. Synapse SQL má dva modely spotřeby: vyhrazené a bezserverové. Pro vyhrazený model použijte vyhrazené fondy SQL. Pracovní prostor může mít libovolný počet těchto fondů. Pokud chcete použít bezserverový model, použijte bezserverové fondy SQL. Každý pracovní prostor má jeden z těchto fondů.

V nástroji Synapse Studio můžete pracovat s fondy SQL spuštěním skriptů SQL.

Poznámka:

Vyhrazený fond SQL ve službě Azure Synapse se liší od vyhrazeného fondu SQL (dříve SQL DW). Ne všechny funkce vyhrazeného fondu SQL v pracovních prostorech Azure Synapse platí pro vyhrazený fond SQL (dříve SQL DW) a naopak. Pokud chcete povolit funkce pracovního prostoru pro existující vyhrazený fond SQL (dříve SQL DW), přečtěte si téma Povolení funkcí pracovního prostoru pro vyhrazený fond SQL (dříve SQL DW).

Apache Spark pro Synapse

Pokud chcete používat analýzy Sparku, vytvořte a používejte bezserverové fondy Apache Sparku v pracovním prostoru Synapse. Když začnete používat fond Sparku, vytvoří pracovní prostory relaci Sparku pro zpracování prostředků přidružených k dané relaci.

Ve Službě Synapse existují dva způsoby použití Sparku:

  • Poznámkové bloky Sparku pro datové vědy a inženýrství s využitím Scala, PySpark, C# a SparkSQL
  • Definice úloh Sparku pro spouštění dávkových úloh Sparku pomocí souborů JAR

SynapseML

SynapseML (dříve označovaná jako MMLSpark) je opensourcová knihovna, která zjednodušuje vytváření široce škálovatelných kanálů strojového učení (ML). Jedná se o ekosystém nástrojů, které se používají k rozšíření architektury Apache Spark v několika nových směrech. SynapseML sjednocuje několik existujících architektur strojového učení a nových algoritmů Microsoftu do jednoho škálovatelného rozhraní API, které je použitelné napříč Pythonem, R, Scalou, .NET a Javou. Další informace najdete v tématu Co je SynapseML?

Pipelines

Kanály představují způsob, jakým Azure Synapse poskytuje integraci dat a umožňuje přesouvat data mezi službami a orchestrovat aktivity.

  • Kanály jsou logické seskupení aktivit, které provádějí úlohu společně.
  • Aktivity definují akce v rámci kanálu, které se mají provádět s daty, jako je kopírování dat nebo spouštění poznámkového bloku nebo skriptu SQL.
  • Toky dat jsou specifickou formou aktivity, která poskytuje prostředí bez kódu pro provádění transformace dat, která využívá Synapse Spark pod výjimkou.
  • Trigger spustí kanál. Dá se spustit ručně nebo automaticky (plán, přeskakující okno nebo událost).
  • Datová sada integrace je pojmenované zobrazení dat, které jednoduše odkazuje nebo odkazuje na data, která se mají použít v aktivitě jako vstup a výstup. Patří do propojené služby.

Průzkumník dat (Preview)

Azure Synapse Data Explorer poskytuje zákazníkům interaktivní prostředí dotazů k odemknutí přehledů z dat protokolu a telemetrie.

  • Fondy Průzkumníka dat jsou vyhrazené clustery, které obsahují dva nebo více výpočetních uzlů s místním úložištěm SSD (horká mezipaměť) pro optimalizovaný výkon dotazů a několik objektů blob úložiště (studená mezipaměť) pro trvalost.
  • Databáze Průzkumníka dat jsou hostované ve fondech Průzkumníka dat a jsou logické entity tvořené kolekcemi tabulek a dalších databázových objektů. Pro každý fond můžete mít více než jednu databázi.
  • Tabulky jsou databázové objekty, které obsahují data uspořádaná pomocí tradičního relačního datového modelu. Data jsou uložená v záznamech, které odpovídají dobře definovanému schématu tabulky Data Exploreru, které definuje uspořádaný seznam sloupců, přičemž každý sloupec má název a skalární datový typ. Skalární datové typy můžou být strukturované (int, real, datetime nebo timespan), částečně strukturované (dynamické) nebo volný text (řetězec). Dynamický typ je podobný formátu JSON, protože může obsahovat jednu skalární hodnotu, pole nebo slovník takových hodnot.
  • Externí tabulky jsou tabulky , které odkazují na úložiště nebo zdroj dat SQL mimo databázi Průzkumníka dat. Podobně jako u tabulek má externí tabulka dobře definované schéma (uspořádaný seznam názvů sloupců a párů datových typů). Na rozdíl od tabulek Průzkumníka dat, ve kterých se data ingestují do fondů Data Exploreru, fungují externí tabulky s daty uloženými a spravovanými mimo fondy. Externí tabulky neuchovávají žádná data a slouží k dotazování nebo exportu dat do externího úložiště dat.