Установка задачи «Профилирование данных»
Область применения: среда выполнения интеграции SSIS SQL Server в Фабрика данных Azure
Перед просмотром профиля исходных данных необходимо сначала настроить и выполнить задачу «Профилирование данных». Эта задача создается в пакете служб Integration Services. Задача «Профилирование данных» настраивается с помощью редактора задачи «Профилирование данных». Этот редактор позволяет выбрать расположение, в которое будут выводиться профили, в том числе профили, требуемые для вычисления. После настройки задачи запускается пакет, вычисляющий профили данных.
Требования и ограничения
Задача профилирования данных работает только с данными, хранящимися в SQL Server. Она не работает с источниками данных сторонних разработчиков и с файловыми источниками данных.
Кроме того, для запуска пакета, содержащего задачу «Профилирование данных», необходимо использовать учетную запись с разрешениями на чтение и запись базы данных tempdb, включая разрешение CREATE TABLE.
Задача «Профилирование данных» в пакете
Задача «Профилирование данных» только настраивает профили и создает выходной файл, который содержит вычисляемые профили. Для просмотра этого файла используется средство просмотра профиля данных (изолированная программа просмотра). Поскольку выходные данные следует просматривать раздельно, задачу «Профилирование данных» можно использовать в пакете, не содержащем других задач.
Однако не обязательно использовать задачу «Профилирование данных» в качестве единственной задачи в пакете. Если необходимо выполнить профилирование данных в рабочем процессе или потоке данных более сложного пакета, можно использовать один из следующих режимов:
Чтобы реализовать условную логику, основанную на выходном файле задачи, поместите в потоке управления пакета задачу «Скрипт» после задачи «Профилирование данных». После этого можно использовать данную задачу «Скрипт» для выполнения запросов к выходному файлу.
Чтобы профилировать данные в потоке данных после загрузки и преобразования данных, необходимо временно сохранить измененные данные в таблицу SQL Server. После этого можно выполнить профилирование сохраненных данных.
Дополнительные сведения см. в разделе Включение задачи "Профилирование данных" в рабочий процесс пакета.
Настройка выходных данных задачи
После добавления в пакет задачи «Профилирование данных» необходимо настроить файл выходных данных для профилей, которые будет вычислять эта задача. Для настройки выходного формата профилей используется страница Общие редактора задачи "Профилирование данных". Помимо указания целевого объекта для выходных данных, на странице Общие предусмотрена возможность выбора быстрого профиля данных. При выборе функции Быстрый профиль задача "Профилирование данных" профилирует таблицу или представление с использованием некоторых или всех профилей и их параметров по умолчанию.
Дополнительные сведения см. в разделе Редактор задачи "Профилирование данных" (страница "Общие") и Форма быстрого профиля одной таблицы (задача "Профилирование данных").
Внимание
В выходном файле могут содержаться конфиденциальные данные о базе данных и о содержащихся в ней данных. Рекомендации по повышению защищенности этого файла см. в разделе Доступ к файлам, используемым пакетами.
Выбор и настройка профилей для вычисления
После настройки файла выходных данных необходимо выбрать профили данных для вычисления. Задача «Профилирование данных» может вычислять восемь различных профилей данных. Пять из них анализируют отдельные столбцы, а остальные три анализируют несколько столбцов или связи между столбцами и таблицами. В рамках одной задачи «Профилирование данных» можно вычислить несколько профилей для нескольких столбцов или сочетаний столбцов из нескольких таблиц или представлений.
В приведенной ниже таблице описаны отчеты, вычисляемые каждым из этих профилей, а также типы данных, для которых профиль является допустимым.
Для вычисления | Это позволяет определить | Используемый профиль |
---|---|---|
Все различающиеся размеры строковых значений в выбранном столбце, а также процентную долю строк в таблице, которые представляют каждый размер. | Недопустимые строковые значения — например, профилируется столбец, который должен содержать двухсимвольные коды штатов США, но обнаружены значения длиной более двух символов. | Распределение длины столбцов — допустимо для столбцов с символьными данными одного из следующих типов: char nchar varchar nvarchar |
Набор регулярных выражений, охватывающий указанную процентную долю значений строкового столбца. Кроме того, для поиска регулярных выражений, которые могут быть использованы в будущем для проверки новых значений. |
Недопустимые строковые значения или значения, имеющие неверный формат, — . Например, шаблон профиля столбца почтового индекса может выдавать регулярные выражения: \d{5}-\d{4}, \d{5} и \d{9}. Если выходные данные содержат другие регулярные выражения, то данные, содержащие значения, либо недопустимы, либо имеют неверный формат. | Профиль шаблона столбца — допустимо для столбцов с символьными данными одного из следующих типов: char nchar varchar nvarchar |
Процент значений NULL в выбранном столбце. | Неожиданно высокое соотношение значений NULL в столбце — например, профилируется столбец, который должен содержать почтовые индексы штатов США, но обнаружено неприемлемо много отсутствующих почтовых индексов. | Соотношение значений NULL в столбце — допустимо для столбцов с данными одного из следующих типов: Изображение text xml определяемые пользователем типы типы variant. |
Статистические данные, такие как минимальное, максимальное, среднее и стандартное отклонение для числовых столбцов, а также минимальное и максимальное значение для столбцов datetime . | Недопустимые числовые значения и даты — например, профилируется столбец исторических дат, и при этом оказывается, что самая поздняя дата относится к будущему. | Профиль статистики столбцов — допустимо для столбцов с данными одного из следующих типов. Числовые типы данных: целочисленные типы (кроме бит) money smallmoney десятичное float real numeric Типы данных даты и времени: datetime smalldatetime timestamp date time datetime2 datetimeoffset Примечание. Для столбца с типом данных date и time профиль вычисляет только минимальные и максимальные значения. |
Все различающиеся значения в выбранном столбце, а также процентную долю строк в таблице, которые представляет каждое значение. Кроме того, все значения, представляющие больший процент, чем указано в таблице. | Неверное число различающихся значений в столбце — например, профилируется столбец, который содержит штаты США, но найдено более 50 различных значений. | Распределение значений столбцов — допустимо для столбцов с данными одного из следующих типов. Числовые типы данных: целочисленные типы (кроме бит) money smallmoney десятичное float real numeric Символьные типы данных: char nchar varchar nvarchar Типы данных даты и времени: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
Является ли столбец или набор столбцов ключом или приблизительным ключом для выбранной таблицы. | Повторяющиеся значения в потенциальном ключевом столбце — например, при профилировании столбцов Name и Address в таблице Customers обнаруживаются повторяющиеся значения там, где сочетания имени и адреса должны быть уникальными. | Потенциальный ключ — профиль с несколькими столбцами, в котором показано, подходит ли столбец или набор столбцов для роли ключевого столбца в выбранной таблице. Допустимо для столбцов с данными одного из следующих типов. Целочисленные типы данных: bit tinyint smallint int bigint Символьные типы данных: char nchar varchar nvarchar Типы данных даты и времени: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
Экстент, в котором значения одного столбца (зависимого) зависят от другого столбца или набора столбцов (определяющего столбца). | Значения, которые являются недопустимыми в зависимых столбцах — например, при профилировании зависимости между столбцом с почтовыми индексами США и столбцом, содержащим штаты. Каждому штату соответствует только один почтовый индекс. Однако профиль обнаружил нарушение зависимости. | Функциональная зависимость — допустимо для столбцов с данными одного из следующих типов. Целочисленные типы данных: bit tinyint smallint int bigint Символьные типы данных: char nchar varchar nvarchar Типы данных даты и времени: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
Способность столбца или набора столбцов служить в качестве внешнего ключа для выбранных таблиц. То есть этот профиль сообщает о перекрытии значений между двумя столбцами или наборами столбцов. |
Недопустимые значения — например, профилируется столбец ProductID таблицы Sales. Профиль определяет, что в столбце содержатся значения, отсутствующие в столбце ProductID таблицы Products. | Включение значений — допустимо для столбцов с данными одного из следующих типов: Целочисленные типы данных: bit tinyint smallint int bigint Символьные типы данных: char nchar varchar nvarchar Типы данных даты и времени: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
Профили для вычисления выбираются на странице Запросы профиля в редакторе задачи "Профилирование данных". Дополнительные сведения см. в разделе Редактор задачи "Профилирование данных" (страница "Запросы профиля").
Кроме того, на странице Запрос профиля можно задать источник данных и настроить профили данных. При настройке задачи необходимо учитывать следующие сведения:
Чтобы выполнить простую настройку и упростить обнаружение характеристик незнакомых данных, можно использовать символ-шаблон (*) вместо имени отдельного столбца. При использовании этого шаблона задача будет профилировать все столбцы, содержащие данные соответствующего типа, что может снизить скорость обработки.
Если выбранная таблица или представление пусты, задача «Профилирование данных» не вычисляет никакие профили.
Когда все значения в выбранном столбце являются значениями NULL, то задача «Профилирование данных» вычисляет только профиль соотношения значений NULL в столбцах. Она не вычисляет профиль распределения длины столбцов, профиль шаблона столбцов, профиль статистики столбцов и профиль распределения значений столбцов для пустого столбца.
Для каждого из доступных профилей данных предусмотрены свои параметры конфигурации. Дополнительные сведения об этих параметрах см. в следующих разделах:
Параметры запроса профиля потенциальных ключей (задача «Профилирование данных»)
Параметры запроса профиля распределения длины столбцов (задача «Профилирование данных»)
Параметры запроса профиля соотношения значений NULL в столбцах (задача «Профилирование данных»)
Параметры запроса профиля шаблона столбцов (задача «Профилирование данных»)
Параметры запроса профиля статистики столбцов (задача «Профилирование данных»)
Параметры запроса профиля распределения значений в столбцах (задача «Профилирование данных»)
Параметры запроса для профиля функциональной зависимости (задача «Профилирование данных»)
Параметры запроса профиля включения значений (задача «Профилирование данных»)
Выполнение пакета, содержащего задачу «Профилирование данных»
Задачу «Профилирование данных» можно запускать после соответствующей настройки. После запуска задача вычисляет профили данных и выводит полученные сведения в формате XML в файл или переменную пакета. Структура этого XML соответствует схеме DataProfile.xsd. Схему можно открыть в Microsoft Visual Studio или другом редакторе схем в редакторе XML или текстовом редакторе, например Блокноте. Использование этой схемы сведений о качестве данных может быть полезно в следующих случаях.
Обмен сведениями о качестве данных внутри организации и между различными организациями.
Построение собственных средств, работающих со сведениями о качестве данных.
Целевое пространство имен определяется в схеме как https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.