Терминология Azure Synapse Analytics

Статья
2025-02-04

В этой статье описаны основные понятия Azure Synapse Analytics.

Рабочая область Synapse

Рабочая область Synapse — это защищаемая ограниченная область совместной работы для выполнения облачной корпоративной аналитики в Azure. Рабочая область развертывается в определенном регионе и имеет связанную Azure Data Lake Storage 2-го поколения учетную запись и файловую систему для хранения временных данных. Рабочая область принадлежит к группе ресурсов.

Рабочая область позволяет выполнять анализ с помощью SQL и Apache Spark. Ресурсы, доступные для анализа SQL и Spark, организованы в пулы SQL и Spark.

Связанные службы

Рабочая область может содержать любое количество связанных служб, по сути строка подключения, которые определяют сведения, необходимые для подключения рабочей области к внешним ресурсам.

Synapse SQL

Synapse SQL позволяет выполнять аналитику на основе Transact-SQL (T-SQL) в рабочей области Synapse. Есть две модели потребления Synapse SQL: выделенная и бессерверная. Для выделенной модели используйте выделенные пулы SQL. В рабочей области может быть любое количество таких пулов. Для бессерверной модели используйте бессерверные пулы SQL. В каждом рабочем пространстве есть один такой пул.

В Synapse Studio можно работать с пулами SQL, запуская скрипты SQL.

Примечание.

Специализированный пул SQL в Azure Synapse отличается от выделенного пула SQL (ранее известного как SQL DW). Не все функции выделенного пула SQL в рабочих областях Azure Synapse применимы к этому же пулу, ранее известному как хранилище данных SQL, и наоборот. Сведения о включении функций рабочей области для существующего выделенного пула SQL (прежнее название — хранилище данных SQL) см. в разделе "Включение функций рабочей области для выделенного пула SQL" (прежнее название — хранилище данных SQL).

Apache Spark для Synapse

Для анализа Spark создайте и используйте бессерверные пулы Apache Spark в рабочей области Synapse. Когда вы начинаете использовать пул Spark, рабочая область создает сеанс Spark для управления ресурсами, связанными с этим сеансом.

Есть два способа использования Spark в Synapse:

Записные книжки Spark для обработки и проектирования данных с помощью Scala, PySpark, C#и SparkSQL
Определения заданий Spark для выполнения пакетных заданий Spark с помощью JAR-файлов

SynapseML

SynapseML (ранее известный как MMLSpark) — это библиотека с открытым исходным кодом, которая упрощает создание конвейеров машинного обучения (ML). Это экосистема инструментов, используемых для расширения платформы Apache Spark в нескольких новых направлениях. SynapseML объединяет ряд существующих платформ машинного обучения и новых алгоритмов Майкрософт в единый масштабируемый API, доступный в Python, R, Scala, .NET и Java. Дополнительные сведения см. в статье "Что такое SynapseML?"

Пайплайны

Каналы данных — это то, как Azure Synapse обеспечивает интеграцию данных, позволяя перемещать данные между службами и оркестрировать мероприятия.

Конвейеры — это логическая группа действий, выполняющих задачу вместе.
Действия определяют действия в конвейере для выполнения таких данных, как копирование данных или выполнение скрипта Notebook или SQL.
Потоки данных — это определенная форма действий, которая обеспечивает выполнение преобразования данных без написания кода с использованием внутренне интегрированного Synapse Spark.
Триггер выполняет конвейер. Его можно запускать вручную или автоматически (расписание, переворачивающееся окно или на основе событий).
Набор данных интеграции — это именованное представление данных, которое просто указывает или ссылается на данные, которые будут использоваться в действии в качестве входных и выходных данных. Она принадлежит связанной службе.

Обозреватель данных (предварительная версия)

Azure Synapse Data Explorer предоставляет клиентам интерфейс для извлечения ценной информации из данных журнала и телеметрии.

Пулы Data Explorer — это выделенные кластеры, которые состоят из двух или более вычислительных узлов с локальными SSD-накопителями (горячий кэш) для оптимизации производительности запросов и нескольких BLOB-объектов хранилища (холодный кэш) для длительного хранения данных.
Базы данных Data Explorer. Размещаются в пулах Data Explorer и являются логическими сущностями, состоящими из коллекций таблиц и других объектов базы данных. На один пул может быть приходиться несколько баз данных.
Таблицы — это объекты базы данных, содержащие данные, организованные с помощью традиционной реляционной модели данных. Данные хранятся в записях, которые соответствуют четко определенной схеме таблицы Обозревателя данных, которая определяет упорядоченный список столбцов, с каждым столбцом с именем и скалярным типом данных. Скалярные типы данных могут быть структурированными (int, real, datetime или timespan) или частично структурированными (dynamic) либо представлять собой произвольный текст (string). Динамический тип похож на JSON тем, что он может содержать одно скалярное значение, массив или словарь таких значений.
Внешние таблицы — это таблицы , ссылающиеся на хранилище или источник данных SQL за пределами базы данных Data Explorer. Как и в случае с таблицами, внешняя таблица имеет четко определенную схему (упорядоченный список пар имен столбцов и типов данных). В отличие от таблиц SQL, в которых данные поступают в пул Data Explorer, внешние таблицы работают с данными, хранящимися и управляемыми за пределами пулов. Внешние таблицы не сохраняют данные и используются для запроса или экспорта данных во внешнее хранилище данных.

Поделиться через