Поделиться через


Пакет дополнительных компонентов Azure для служб Integration Services (SSIS)

Область применения: среда выполнения интеграции SSIS SQL Server в Фабрика данных Azure

Пакет дополнительных компонентов Azure для служб SQL Server Integration Services (SSIS) — это дополнение, которое предоставляет перечисленные на этой странице компоненты для подключения служб SSIS к Azure, передачи данных между Azure и локальными источниками данных и обработки данных, хранящихся в Azure.

Скачать пакет дополнительных компонентов служб SSIS для Azure

На страницах скачивания также приведены сведения о необходимых компонентах. SQL Server необходимо установить перед установкой пакета дополнительных компонентов Azure на сервере. В противном случае компоненты в составе пакета могут оказаться недоступными при развертывании пакетов в базе данных каталога служб SSIS (SSISDB) на сервере.

Компоненты в составе пакета дополнительных компонентов

Использование TLS 1.2

Версия TLS, используемая пакетом дополнительных компонентов Azure, соответствует параметрам системы .NET Framework. Чтобы использовать TLS 1.2, добавьте значение REG_DWORD с именем SchUseStrongCrypto и данными 1 в следующих двух разделах реестра.

  1. HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Microsoft\.NETFramework\v4.0.30319
  2. HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\.NETFramework\v4.0.30319

Зависимость от Java

Java требуется для использования форматов файлов ORC или Parquet с соединителями Azure Data Lake Storage и гибких файлов.
Архитектура сборки Java (32- или 64-разрядная) должна соответствовать архитектуре используемой среды выполнения Integration Services. Были протестированы следующие сборки Java:

Настройка Zulu's OpenJDK

  1. Скачайте и извлеките ZIP-пакет установки.
  2. Запустите sysdm.cpl из командной строки.
  3. На вкладке Дополнительно выберите Переменные среды.
  4. В разделе Системные переменные выберите Создать.
  5. Введите JAVA_HOME в поле Имя переменной.
  6. Выберите Обзор каталога, перейдите к извлеченной папке и выберите вложенную папку jre. Затем нажмите кнопку ОК. Значение переменной заполняется автоматически.
  7. Нажмите кнопку ОК, чтобы закрыть диалоговое окно Создание системной переменной.
  8. Нажмите кнопку ОК, чтобы закрыть диалоговое окно Переменные среды.
  9. Нажмите кнопку ОК, чтобы закрыть диалоговое окно Свойства системы.

Совет

Если вы используете формат Parquet и появилось сообщение об ошибке при вызове Java (сообщение: java.lang.OutOfMemoryError:Java heap space), можно добавить переменную среды _JAVA_OPTIONS, чтобы настроить минимальный или максимальный размер кучи для виртуальной машины Java.

куча виртуальной машины Java

Пример: задайте переменную _JAVA_OPTIONS со значением -Xms256m -Xmx16g. Флаг Xms указывает начальный пул выделения памяти для виртуальной машины Java (JVM), а Xmx указывает максимальный пул выделения памяти. Это означает, что JVM будет запущена с объемом памяти Xms и сможет использовать не более Xmx объема памяти. Значения по умолчанию: мин. — 64 МБ, макс. — 1 ГБ.

Установка Zulu OpenJDK в Azure-SSIS Integration Runtime

Это действие должно выполняться посредством интерфейса выборочной установки для Azure-SSIS Integration Runtime. Допустим, используется zulu8.33.0.1-jdk8.0.192-win_x64.zip. Контейнер больших двоичных объектов может быть организован указанным ниже образом.

main.cmd
install_openjdk.ps1
zulu8.33.0.1-jdk8.0.192-win_x64.zip

В качестве точки входа main.cmd запускает выполнение скрипта PowerShell install_openjdk.ps1, который, в свою очередь, извлекает zulu8.33.0.1-jdk8.0.192-win_x64.zip и задает JAVA_HOME соответствующим образом.

main.cmd

powershell.exe -file install_openjdk.ps1

Совет

Если вы используете формат Parquet и появилось сообщение об ошибке при вызове Java (сообщение: java.lang.OutOfMemoryError:Java heap space), можно добавить команду в main.cmd, чтобы настроить минимальный или максимальный размер кучи для виртуальной машины Java. Пример:

setx /M _JAVA_OPTIONS "-Xms256m -Xmx16g"

Флаг Xms указывает начальный пул выделения памяти для виртуальной машины Java (JVM), а Xmx указывает максимальный пул выделения памяти. Это означает, что JVM будет запущена с объемом памяти Xms и сможет использовать не более Xmx объема памяти. Значения по умолчанию: мин. — 64 МБ, макс. — 1 ГБ.

install_openjdk.ps1

Expand-Archive zulu8.33.0.1-jdk8.0.192-win_x64.zip -DestinationPath C:\
[Environment]::SetEnvironmentVariable("JAVA_HOME", "C:\zulu8.33.0.1-jdk8.0.192-win_x64\jre", "Machine")

Настройка среды выполнения Oracle Java SE

  1. Скачайте и запустите EXE-установщик.
  2. Следуйте указаниям установщика, чтобы завершить настройку.

Сценарий: обработка больших данных

Используйте соединитель Azure для выполнения следующих задач по обработке больших данных:

  1. Передача входных данных в хранилище больших двоичных объектов Azure с помощью задачи передачи больших двоичных объектов Azure.

  2. Создание кластера Azure HDInsight с помощью задачи создания кластера Azure HDInsight. Если вы хотите использовать собственный кластер, этот шаг является необязательным.

  3. Запуск задания Pig или Hive в кластере Azure HDInsight с помощью задачи по запуску задания Pig в Azure HDInsight или задачи по запуску задания Hive в Azure HDInsight.

  4. Удаление кластера Azure HDInsight после использования (если вы создавали кластер HDInsight по требованию на шаге 2) с помощью задачи удаления кластера Azure HDInsight.

  5. Скачивание выходных данных из хранилища больших двоичных объектов Azure с помощью задачи скачивания больших двоичных объектов Azure HDInsight.

Снимок экрана: сценарий больших данных в соединителе служб SSIS и Azure.

Сценарий: управление данными в облаке

Используйте назначение больших двоичных объектов Azure в пакете SSIS для записи выходных данных в хранилище BLOB-объектов Azure или источник больших двоичных объектов Azure для чтения данных из хранилища BLOB-объектов Azure.

Снимок экрана: поток данных из источника OLE DB в большой двоичный объект Azure.

Снимок экрана: поток данных из источника Azure в назначение OLE DB.

Используйте контейнер цикла Foreach с перечислителем BLOB-объектов Azure для обработки данных в нескольких файлах больших двоичных объектов.

Снимок экрана: контейнер

Заметки о выпуске

Версия 1.21.0

Усовершенствования

  1. Версия log4j обновлена с 1.2.17 до 2.17.1.

Версия 1.20.0

Усовершенствования

  1. Целевая версия платформа .NET Framework изменена с 4.6 на 4.7.2.
  2. Задача отправки информации в хранилище данных SQL Azure переименована в задачу Azure Synapse Analytics.

Исправление ошибок

  1. При доступе к Хранилище BLOB-объектов Azure и компьютеру под управлением служб SSIS находится в языковом стандарте, отличном от en-US, выполнение пакета завершится ошибкой с сообщением "Строка не распознана как допустимое значение DateTime".
  2. Для диспетчера подключений службы хранилища Azure требуется секрет, даже если для проверки подлинности применяется управляемое удостоверение Фабрики данных.

Версия 1.19.0

Усовершенствования

  1. Добавлена поддержка проверки подлинности с помощью подписанного URL-адреса в диспетчере подключений к хранилищу Azure.

Версия 1.18.0

Усовершенствования

  1. Для задачи гибкого файла три улучшения: добавлена поддержка подстановочных знаков (1) для операций копирования и удаления; (2) пользователь может включить или отключить рекурсивный поиск операции удаления; и (3) имя файла назначения для операции копирования может быть пустым, чтобы сохранить имя исходного файла.

Версия 1.17.0

Это версия-исправление, выпущенная только для SQL Server 2019.

Исправление ошибок

  1. При выполнении в Visual Studio 2019 и выборе SQL Server 2019 в качестве целевого объекта задача "Гибкий файловый источник или назначение" может порождать ошибку с сообщением Attempted to access an element as a type incompatible with the array.
  2. При выполнении в Visual Studio 2019 и выборе SQL Server 2019 в качестве целевого объекта гибкий файловый источник или назначение в формате ORC или Parquet могут порождать ошибку с сообщением Microsoft.DataTransfer.Common.Shared.HybridDeliveryException: An unknown error occurred. JNI.JavaExceptionCheckException.

Версия 1.16.0

Исправление ошибок

  1. В некоторых случаях выполнение пакета сообщает "Ошибка: не удалось загрузить файл или сборку Newtonsoft.Json, Version=11.0.0.0, Culture=neutral, PublicKeyToken=30ad4fe6b2a6aeed" или одну из ее зависимостей".

Версия 1.15.0

Усовершенствования

  1. Добавление операции удаления папки или файла в задачу "Гибкая работа с файлами"
  2. Добавление функции преобразования внешнего и выходного типа данных в источник "Гибкая работа с файлами"

Исправление ошибок

  1. В некоторых случаях проверьте наличие неисправностей подключения для Data Lake Storage 2-го поколения с сообщением об ошибке "Попытка получить доступ к элементу как к типу, несовместимому с массивом"
  2. Включение поддержки эмулятора хранения Azure