Поделиться через


Терминология Azure Synapse Analytics

В этой статье описаны основные понятия Azure Synapse Analytics.

Рабочая область Synapse

Рабочая область Synapse — это защищаемая ограниченная область совместной работы для выполнения облачной корпоративной аналитики в Azure. Рабочая область развертывается в определенном регионе и имеет связанную Azure Data Lake Storage 2-го поколения учетную запись и файловую систему для хранения временных данных. Рабочая область принадлежит к группе ресурсов.

Рабочая область позволяет выполнять анализ с помощью SQL и Apache Spark. Ресурсы, доступные для анализа SQL и Spark, организованы в пулы SQL и Spark.

Связанные службы

Рабочая область может содержать любое количество связанных служб, по сути строка подключения, которые определяют сведения, необходимые для подключения рабочей области к внешним ресурсам.

Synapse SQL

Synapse SQL позволяет выполнять аналитику на основе Transact-SQL (T-SQL) в рабочей области Synapse. Есть две модели потребления Synapse SQL: выделенная и бессерверная. Для выделенной модели используйте выделенные пулы SQL. В рабочей области может быть любое количество таких пулов. Для бессерверной модели используйте бессерверные пулы SQL. В каждой рабочей области есть один такой пул.

В Synapse Studio можно работать с пулами SQL, запуская скрипты SQL.

Примечание.

Выделенный пул SQL в Azure Synapse отличается от выделенного пула SQL (ранее — хранилище данных SQL). Не все функции выделенного пула SQL в рабочих областях Azure Synapse применяются к выделенному пулу SQL (ранее — хранилище данных SQL), и наоборот. Сведения о включении функций рабочей области для существующего выделенного пула SQL (прежнее название — хранилище данных SQL) см. в разделе "Включение функций рабочей области для выделенного пула SQL" (прежнее название — хранилище данных SQL).

Apache Spark для Synapse

Для анализа Spark создайте и используйте бессерверные пулы Apache Spark в рабочей области Synapse. При запуске использования пула Spark рабочие области создают сеанс Spark для обработки ресурсов, связанных с этим сеансом.

Есть два способа использования Spark в Synapse:

  • Записные книжки Spark для обработки и проектирования данных с помощью Scala, PySpark, C#и SparkSQL
  • Определения заданий Spark для выполнения заданий Spark пакетной службы с помощью jar-файлов

SynapseML

SynapseML (ранее известный как MMLSpark) — это библиотека с открытым исходным кодом, которая упрощает создание конвейеров машинного обучения (ML). Это экосистема инструментов, используемых для расширения платформы Apache Spark в нескольких новых направлениях. SynapseML объединяет ряд существующих платформ машинного обучения и новых алгоритмов Майкрософт в единый масштабируемый API, доступный в Python, R, Scala, .NET и Java. Дополнительные сведения см. в статье "Что такое SynapseML?"

Pipelines

Конвейеры — это то, как Azure Synapse обеспечивает интеграцию данных, позволяя перемещать данные между службами и оркестраторными действиями.

  • Конвейеры — это логическая группа действий, выполняющих задачу вместе.
  • Действия определяют действия в конвейере для выполнения таких данных, как копирование данных или выполнение скрипта Notebook или SQL.
  • Потоки данных — это определенная форма действий, которая обеспечивает отсутствие кода для преобразования данных, использующего Synapse Spark под обложкой.
  • Триггер выполняет конвейер. Его можно запускать вручную или автоматически (расписание, переворачивающееся окно или на основе событий).
  • Набор данных интеграции — это именованное представление данных, которое просто указывает или ссылается на данные, которые будут использоваться в действии в качестве входных и выходных данных. Она принадлежит связанной службе.

Обозреватель данных (предварительная версия)

Azure Synapse Data Explorer предоставляет клиентам интерфейс для извлечения ценной информации из данных журнала и телеметрии.

  • Пулы Обозревателя данных — это выделенные кластеры, которые включают два или более вычислительных узлов с локальным хранилищем SSD (горячим кэшом) для оптимизации производительности запросов и нескольких BLOB-объектов хранилища (холодный кэш) для сохранения.
  • Базы данных Data Explorer. Размещаются в пулах Data Explorer и являются логическими сущностями, состоящими из коллекций таблиц и других объектов базы данных. На один пул может быть приходиться несколько баз данных.
  • Таблицы — это объекты базы данных, содержащие данные, организованные с помощью традиционной реляционной модели данных. Данные хранятся в записях, которые соответствуют четко определенной схеме таблицы Обозревателя данных, которая определяет упорядоченный список столбцов, с каждым столбцом с именем и скалярным типом данных. Скалярные типы данных могут быть структурированными (int, real, datetime или timespan) или частично структурированными (dynamic) либо представлять собой произвольный текст (string). Динамический тип похож на JSON тем, что он может содержать одно скалярное значение, массив или словарь таких значений.
  • Внешние таблицы — это таблицы , ссылающиеся на хранилище или источник данных SQL за пределами базы данных Data Explorer. Как и в случае с таблицами, внешняя таблица имеет четко определенную схему (упорядоченный список пар имен столбцов и типов данных). В отличие от таблиц SQL, в которых данные поступают в пул Data Explorer, внешние таблицы работают с данными, хранящимися и управляемыми за пределами пулов. Внешние таблицы не сохраняют данные и используются для запроса или экспорта данных во внешнее хранилище данных.