Обзор приема данных в обозревателе данных Azure Synapse (предварительная версия)
Прием данных — это процесс, используемый для загрузки записей данных из одного или нескольких источников для импорта данных в таблицу в пуле Data Explorer в Azure Synapse. После принятия данные становятся доступными для запроса.
Служба управления данными в обозревателе данных Azure Synapse, которая отвечает за прием данных, реализует указанный ниже процесс.
- Azure Synapse Data Explorer извлекает данные в пакетах или с помощью потоковой передачи из внешнего источника и считывает запросы из очереди ожидания Azure.
- Пакетные данные, поступающие в ту же базу данных и таблицу, оптимизируются для пропускной способности приема.
- Первоначальные данные проверяются, и формат при необходимости преобразуется.
- Далее для данных может выполняться сопоставление схемы, упорядочение, индексирование, кодирование и сжатие.
- Данные сохраняются в хранилище в соответствии с заданной политикой хранения.
- Полученные данные фиксируются в подсистеме, где они остаются доступными для запроса.
Поддерживаемые форматы данных, свойства и разрешения
Свойства приема — свойства, влияющие на способ приема данных (например, присвоение тегов, сопоставление, время создания).
Разрешения: для приема данных процессу требуются разрешения на уровне принимающей базы данных. Для выполнения других действий, например запросов, могут потребоваться разрешения администратора базы данных, пользователя базы данных или администратора таблиц.
Пакетный и потоковый приемы данных
При пакетном приеме выполняется пакетная обработка данных и их оптимизация для высокой пропускной способности приема. Этот метод предпочтителен и является самым эффективным способом приема. Пакетная обработка данных выполняется в соответствии со свойствами приема. Небольшие пакеты данных затем объединяются и оптимизируются для быстрого получения результатов запросов. Политику пакетного приема можно задать для баз данных или таблиц. По умолчанию максимальное значение для пакетной обработки составляет 5 минут, 1000 элементов или общий объем в 1 ГБ. Ограничение размера данных для команды приема пакетов составляет 4 ГБ.
Прием с потоковой передачей — это способ с непрерывным приемом данных из источника с потоковой передачей. Потоковый прием данных позволяет уменьшить задержку до близкой к реальному времени для небольших наборов данных в каждой таблице. Данные изначально принимаются в хранилище строк, а потом перемещаются в экстенты хранилища столбцов.
Методы и инструменты приема
Обозреватель данных Azure Synapse поддерживает несколько методов приема данных, каждый из которых имеет собственные целевые сценарии. К таким методам относятся средства приема, соединители и подключаемые модули для различных служб, управляемые конвейеры, программный прием с помощью пакетов SDK и прямой доступ к приему.
Прием с помощью управляемых конвейеров
Для организаций, которые хотят обеспечить управление (регулирование, повторные попытки, мониторы, оповещения и т. д.) с помощью внешней службы, использование соединителя будет самым оптимальным решением. Прием с постановкой в очередь подходит для больших объемов данных. Обозреватель данных Azure Synapse поддерживает следующие конвейеры Azure Pipelines:
- Концентратор событий . Конвейер, передающий события из служб в обозреватель данных Azure Synapse. Дополнительные сведения см. в статье о приеме данных из концентратора событий в обозреватель данных Azure Synapse.
- Конвейеры Synapse. Полностью управляемая служба интеграции данных для аналитических рабочих нагрузок в конвейерах Synapse соединяется более чем с 90 поддерживаемыми источниками для обеспечения эффективной и устойчивой передачи данных. Конвейеры Synapse выполняют подготовку, преобразование и обогащение данных для предоставления аналитических сведений, которые можно отслеживать разными способами. Эту службу можно использовать как одноразовое решение, периодически или с запуском по определенным событиям.
Программный прием с помощью пакетов SDK
Обозреватель данных Azure Synapse предоставляет пакеты SDK, которые можно использовать для запросов и приема данных. Прием данных программным образом оптимизирован для снижения затрат на прием путем минимизации количества транзакций с хранилищем во время процесса приема и после него.
Прежде чем начать работу, выполните приведенные ниже действия, чтобы получить конечные точки пула Data Explorer для настройки программного приема данных.
В Synapse Studio в области навигации слева выберите Управление>Пулы Data Explorer.
Выберите пул Data Explorer, сведения о котором нужно просмотреть.
Запишите конечные точки запроса и приема данных. Используйте конечную точку запроса в качестве кластера при настройке подключений к пулу Data Explorer. При настройке пакетов SDK для приема данных используйте конечную точку приема данных.
Доступные пакеты SDK и проекты с открытым кодом
Инструменты
- Прием данных одним щелчком . Позволяет быстро получать данные путем создания и корректировки таблиц из широкого спектра источников самых разных типов. Функция приема данных одним щелчком автоматически предлагает таблицы и структуры сопоставления на основе источника данных в обозревателе данных Azure Synapse. Такой метод можно использовать для однократного приема или для определения непрерывного приема через Сетку событий в контейнер, в который передаются данные.
Управляющие команды приема в языке запросов Kusto
Существует ряд методов, с помощью которых данные могут быть приняты непосредственно обработчиком с использованием команд языка запросов Kusto (KQL). Так как эти методы обходят службы управления данными, они подходят только для экспериментирования и прототипирования. Не используйте этот метод в производственных сценариях или сценариях с обработкой крупных объемов данных.
Встроенный (принудительный) прием данных. В подсистему приема передается команда управления (.ingest inline), в текст которой сразу включаются данные для приема. Этот метод предназначен для импровизированного тестирования.
Прием из запроса. В обработчик отправляется управляющая команда (.set, .append, .set-or-append или .set-or-replace), которая опосредованно определяет данные по результатам запроса или команды.
Прием из хранилища (вытягивание) . В обработчик отправляется управляющая команда (.ingest into), а данные хранятся во внешнем хранилище (например, Хранилище BLOB-объектов Azure), которое доступно для этого обработчика и на которое указывает эта команда.
Пример использования команд управления приемом данных см. в разделе об анализе с помощью Data Explorer.
Процесс приема
После выбора подходящего метода приема сделайте следующее:
Задайте политику хранения.
К данным, принятым в таблицу в обозревателе данных Azure Synapse, применяется действующая для таблицы политика хранения. Если политика хранения не задана для таблицы явным образом, она создается на основе политики хранения базы данных. Хранение на горячем уровне зависит от размера кластера и вашей политики хранения. При приеме данных, объем которых превышает доступное пространство, первые полученные данные будут перенесены на холодный уровень.
Убедитесь, что политика хранения базы данных соответствует вашим потребностям. В противном случае явно переопределите ее на уровне таблицы. Дополнительные сведения см. в статье Политика хранения.
Создание таблицы
Для приема данных необходимо заранее создать таблицу. Используйте один из следующих методов.
Создайте таблицу с помощью команды. Пример использования команды создания таблицы см. в разделе об анализе с помощью Data Explorer.
Создайте таблицу с помощью приема данных одним щелчком.
Примечание
Если запись является неполной или поле не может быть проанализировано в необходимом типе данных, соответствующие столбцы таблицы заполняются значениями NULL.
Создайте сопоставление схем.
Сопоставление схем помогает привязать поля исходных данных к столбцам таблицы назначения. Сопоставление позволяет принимать данные из разных источников в одну таблицу на основе определенных атрибутов. Поддерживаются разные типы сопоставлений, как для строк (CSV, JSON и AVRO), так и для столбцов (Parquet). Большинство методов также позволяют предварительно создать сопоставления в таблице и ссылаться на них с помощью параметра команды приема.
Задайте политику обновления (необязательно).
Некоторые сопоставления форматов данных (Parquet, JSON и Avro) поддерживают простые и полезные преобразования во время приема. Если сценарий требует более сложной обработки во время приема, используйте политику обновления, которая позволяет обеспечить простую обработку с помощью команд языка запросов Kusto. Политика обновления автоматически выполняет извлечение и преобразование принятых данных в исходной таблице и принимает результирующие данные в одну или несколько таблиц назначения. Задайте свою политику обновления.