Terminologia usługi Azure Synapse Analytics
W tym artykule przedstawiono podstawowe pojęcia dotyczące usługi Azure Synapse Analytics.
Obszar roboczy usługi Synapse
Obszar roboczy usługi Synapse to zabezpieczana granica współpracy na potrzeby wykonywania analizy przedsiębiorstwa opartej na chmurze na platformie Azure. Obszar roboczy jest wdrażany w określonym regionie i ma skojarzone konto usługi Azure Data Lake Storage Gen2 i system plików do przechowywania danych tymczasowych. Obszar roboczy znajduje się w grupie zasobów.
Obszar roboczy umożliwia wykonywanie analiz za pomocą języka SQL i platformy Apache Spark. Zasoby dostępne dla analiz SQL i Spark są zorganizowane w pule SQL i Spark.
Połączone usługi
Obszar roboczy może zawierać dowolną liczbę połączonych usług, zasadniczo parametry połączenia definiujące informacje potrzebne do nawiązania połączenia z zasobami zewnętrznymi w obszarze roboczym.
Synapse SQL
Usługa Synapse SQL umożliwia wykonywanie analizy opartej na języku Transact-SQL (T-SQL) w obszarze roboczym usługi Synapse. Usługa Synapse SQL ma dwa modele użycia: dedykowane i bezserwerowe. W przypadku dedykowanego modelu użyj dedykowanych pul SQL. Obszar roboczy może mieć dowolną liczbę tych pul. Aby użyć modelu bezserwerowego, użyj bezserwerowych pul SQL. Każdy obszar roboczy ma jedną z tych pul.
W programie Synapse Studio możesz pracować z pulami SQL, uruchamiając skrypty SQL.
Uwaga
Dedykowana pula SQL w usłudze Azure Synapse różni się od dedykowanej puli SQL (dawniej SQL DW). Nie wszystkie funkcje dedykowanej puli SQL w obszarach roboczych usługi Azure Synapse mają zastosowanie do dedykowanej puli SQL (dawniej SQL DW) i na odwrót. Aby włączyć funkcje obszaru roboczego dla istniejącej dedykowanej puli SQL (dawniej SQL DW), zobacz Włączanie funkcji obszaru roboczego dla dedykowanej puli SQL (dawniej SQL DW).
Platforma Apache Spark dla usługi Synapse
Aby korzystać z analizy platformy Spark, utwórz i użyj bezserwerowych pul platformy Apache Spark w obszarze roboczym usługi Synapse. Po rozpoczęciu korzystania z puli Platformy Spark obszary robocze tworzą sesję platformy Spark do obsługi zasobów skojarzonych z tą sesją.
Istnieją dwa sposoby korzystania z platformy Spark w usłudze Synapse:
- Notesy spark do nauki o danych i inżynierii przy użyciu języka Scala, PySpark, C# i SparkSQL
- Definicje zadań platformy Spark na potrzeby uruchamiania zadań platformy Spark wsadowych przy użyciu plików jar
SynapseML
SynapseML (wcześniej znany jako MMLSpark) to biblioteka typu open source, która upraszcza tworzenie wysoce skalowalnych potoków uczenia maszynowego (ML). Jest to ekosystem narzędzi używanych do rozszerzania platformy Apache Spark w kilku nowych kierunkach. Usługa SynapseML łączy kilka istniejących struktur uczenia maszynowego i nowe algorytmy firmy Microsoft w jeden, skalowalny interfejs API, który można używać w językach Python, R, Scala, .NET i Java. Aby dowiedzieć się więcej, zobacz Co to jest usługa SynapseML?
Pipelines
Potoki to sposób, w jaki usługa Azure Synapse zapewnia integrację danych, umożliwiając przenoszenie danych między usługami i organizowanie działań.
- Potoki to logiczne grupowanie działań, które wykonują zadanie razem.
- Działania definiują akcje w potoku w celu wykonania na danych, takich jak kopiowanie danych, lub uruchamianie notesu lub skryptu SQL.
- Przepływy danych są określoną formą działania, która zapewnia środowisko bez kodu do wykonywania transformacji danych, która korzysta z usługi Synapse Spark w ramach okładek.
- Wyzwalacz wykonuje potok. Można go uruchamiać ręcznie lub automatycznie (harmonogram, okno wirowania lub oparte na zdarzeniach).
- Zestaw danych integracji to nazwany widok danych, który po prostu wskazuje lub odwołuje się do danych, które mają być używane w działaniu jako dane wejściowe i wyjściowe. Należy do połączonej usługi.
Eksplorator danych (wersja zapoznawcza)
Usługa Azure Synapse Data Explorer udostępnia klientom interaktywne środowisko zapytań w celu odblokowania szczegółowych informacji z danych dzienników i danych telemetrycznych.
- Pule Eksploratora danych to dedykowane klastry, które obejmują co najmniej dwa węzły obliczeniowe z lokalnym magazynem SSD (gorąca pamięć podręczna) na potrzeby zoptymalizowanej wydajności zapytań i wieloma obiektami blob magazynu (zimną pamięcią podręczną) na potrzeby trwałości.
- Bazy danych Eksploratora danych są hostowane w pulach Eksploratora danych i są jednostkami logicznymi składającymi się z kolekcji tabel i innych obiektów bazy danych. Możesz mieć więcej niż jedną bazę danych na pulę.
- Tabele to obiekty bazy danych, które zawierają dane zorganizowane przy użyciu tradycyjnego modelu danych relacyjnych. Dane są przechowywane w rekordach, które są zgodne z dobrze zdefiniowanym schematem tabeli eksploratora danych, który definiuje uporządkowaną listę kolumn, a każda kolumna ma nazwę i typ danych skalarnych. Typy danych skalarnych mogą być ustrukturyzowane (int, real, datetime lub timespan), częściowo ustrukturyzowane (dynamiczne) lub dowolny tekst (ciąg). Typ dynamiczny jest podobny do formatu JSON, ponieważ może przechowywać pojedynczą wartość skalarną, tablicę lub słownik takich wartości.
- Tabele zewnętrzne to tabele odwołujące się do magazynu lub źródła danych SQL spoza bazy danych eksploratora danych. Podobnie jak w przypadku tabel, tabela zewnętrzna ma dobrze zdefiniowany schemat (uporządkowaną listę par nazw kolumn i typów danych). W przeciwieństwie do tabel eksploratora danych, w których dane są pozyskiwane do pul eksploratora danych, tabele zewnętrzne działają na danych przechowywanych i zarządzanych poza pulami. Tabele zewnętrzne nie utrwalają żadnych danych i są używane do wykonywania zapytań ani eksportowania danych do zewnętrznego magazynu danych.