Связанные проекты для решений интеллектуального анализа данных
Применимо к: SQL Server 2019 и более ранних версий Analysis Services Azure Analysis Services Fabric/Power BI Premium
Важно!
Интеллектуальный анализ данных не рекомендуется использовать в службах SQL Server 2017 Analysis Services, а в SQL Server 2022 Analysis Services его поддержка прекращена. Документация не обновляется для устаревших и неподдерживаемых функций. Дополнительные сведения см. в статье об обратной совместимости служб Analysis Services.
Для решения интеллектуального анализа данных требуется, как минимум, проект интеллектуального анализа данных, определяющий источники данных, представления источников данных, структуры и модели интеллектуального анализа данных. Однако, если модели интеллектуального анализа данных используются для каждодневного принятия решений, важно, чтобы интеллектуальный анализ данных интегрировался с другой частью решения для прогнозирующего анализа, включая следующие процессы и компоненты.
Подготовка и выбор данных и переменных Включает очистку данных, управление метаданными и интеграцию нескольких источников данных, а также преобразование, слияние данных и загрузку в хранилище данных.
Отчеты о результатах анализа, представление прогнозов и проверка или отслеживание операций по интеллектуальному анализу данных
Использование многомерных или табличных моделей для исследования найденных данных.
Улучшение решения интеллектуального анализа данных для поддержки новых данных или изменения в инфраструктуре с учетом текущего анализа.
В этом разделе описываются другие функции SQL Server 2017, которые часто являются частью решения прогнозной аналитики, либо для поддержки процессов подготовки и интеллектуального анализа данных, либо для поддержки пользователей, предоставляя инструменты для анализа и действий.
SQL Server Integration Services
Службы Integration Services предоставляют компоненты и функции, необходимые для подготовки и обучения данных проекта интеллектуального анализа данных. Хотя вы можете выполнять множество задач очистки или подготовки данных с помощью других средств, таких как скрипты, службы Integration Services имеют множество преимуществ для интеллектуального анализа данных:
Представляют задачи как часть рабочего процесса, которую можно повторять, автоматизировать, разветвлять и расширять.
Существенно помогают в проверке и многочисленных способах сбора информации об ошибках и событиях регистрации в журнале.
Помимо журналов преобразования данных, изменения в данных можно отслеживать с помощью конвейера преобразования данных.
Можно также интегрировать рабочие потоки служб SSIS с компонентами, поддерживающими функции отслеживания измененных данных в SQL Server.
Интеллектуальный анализ данных можно включить в рабочий процесс служб Integration Services, чтобы интеллектуально разделить входящие данные на несколько таблиц. Например, можно использовать прогнозирующий запрос, чтобы разбить новых заказчиков на целевые группы для рекламной кампании по почте.
В следующих списках приведены ссылки на компоненты служб Integration Services, которые наиболее широко используются для поддержки интеллектуального анализа данных.
Компоненты потока управления
Компоненты потока данных
службы SQL Server Reporting Services
Хотя Reporting Services обычно не рассматривается как критически важный компонент решений интеллектуального анализа данных, он предоставляет следующие функции, полезные для представления решений интеллектуального анализа данных.
Интеграция данных из нескольких источников в сложных отчетах. Создание запросов к содержимому моделей для анализа и отчетов с прогнозами и тенденциями для конечных пользователей.
Возможность создать отчет, который позволит пользователям создавать прямые запросы к существующей модели интеллектуального анализа данных.
Интеграция с SQL Server Analysis Services для поддержки детализации и исследования измерений интеллектуального анализа данных и кубов интеллектуального анализа данных, созданных на основе моделей OLAP.
функции параметризации и форматирования, доступные в Reporting Services.
Дополнительные сведения об использовании служб Reporting Services с запросами DMX в качестве источника данных можно найти по следующим ссылкам:
Пользовательский интерфейс конструктора DMX-запросов служб Analysis Services
Тип соединения служб Analysis Services для расширений интеллектуального анализа данных (службы SSRS)
Однако использовать DMX в качестве источника данных необязательно. Компоненты служб Integration Services для интеллектуального анализа данных также поддерживают сохранение результатов прогнозирующего запроса в реляционной базе данных. Если у вас есть установленный рабочий процесс для обновления моделей с помощью служб Integration Services, сохранение прогнозов и других результатов запросов интеллектуального анализа данных в SQL Server позволяет использовать Power View для создания отчетов, а также другие средства, которые не поддерживают взаимодействие с расширениями интеллектуального анализа данных.
Дополнительные сведения об использовании служб Reporting Services в качестве уровня представления источников данных см. в разделе Integrating Reporting Services into Applications.
Службы Data Quality Services
Служба Data Quality Services (DQS) является новой в SQL Server 2017 г. Поскольку проблемы с данными могут сделать интеллектуальный анализ данных невозможным, майнеры данных, выполняющие повторный анализ или работающие в крупных организациях со сложными источниками данных, должны обнаружить, что хорошо спланированный проект данных с использованием DQS является более надежным решением для поддержки интеллектуального анализа данных, чем нерегламентированная очистка данных с помощью Transact-SQL или других сценариев.
Для подготовки и обеспечения целостности данных в решении интеллектуального анализа данных можно использовать следующие функции служб DQS.
Автоматизированный процесс очистки данных, который анализирует данные и предлагает изменения.
Службы DQS могут сравнить данные источника со справочными данными на основе облака, обслуживание и качество которых гарантируется поставщиками услуг качества данных.
Службы DQS могут также проанализировать необработанные данные из источника данных и создать базу знаний из данных пользователя. Обработанные данные разбиваются на категории и выдаются пользователю для дальнейшей обработки. Процесс очистке интерактивен, т. е. диспетчер данных может одобрить, отвергнуть или изменить данные, предложенные автоматизированным процессом очистки данных.
Результатом процесса является база знаний, которую можно постоянно улучшать и использовать на нескольких этапах расширения данных.
Дополнительные сведения см. в статье Data Cleansing.
Автоматизированный процесс сопоставления данных, который анализирует данные и предлагает изменения.
Чтобы избежать дублирования данных, можно провести дополнительную очистку источника данных для выявления полных и приблизительных совпадений. Эти компоненты позволяют задать правила сравнения и пороги, на которых эти правила применять.
Обнаружив совпадение данных, можно удалить дубликаты, которые часто создают проблемы для интеллектуального анализа данных. Удаление дубликатов данных не происходит автоматически; диспетчер данных или специалист по ИТ должен проверить знания в базе знаний и предложенные изменения в данных.
После создания начального проекта DQS многие задачи можно автоматизировать с помощью компонентов служб Integration Services.
Дополнительные сведения см. в статье Сопоставление данных.
Во время операций очистки и сопоставления данных в проекте качества данных можно получать статистику и информацию о данных, обрабатываемых службами DQS, в реальном времени. Профили данных помогают оценить, насколько процессы очистки и сопоставления данных помогли улучшить качество данных, и понять, какие изменения были сделаны. Дополнительные сведения о профилях данных и уведомлениях см. в разделе Data Profiling and Notifications in DQS.
База знаний, представляющая три типа знаний: готовые знания, знания, составленные сервером DQS, и знания, составленные пользователем.
Когда база знаний создана, можно использовать ее в режиме итераций для очистки и проверки других данных.
Можно импортировать в базу знаний новые данные из нескольких источников — как чистые данные от авторизованных поставщиков, так и необработанные, которые сравниваются с данными, уже существующими в базе данных.
Подробные сведения о процессе очистки данных в проекте качества данных см. в разделе «Очистка данных (DQS)».
Знания из базы знаний можно применять и к другим источникам для очистки данных в других процессах. Такая очистка данных может выявить ошибки в данных, введенных пользователем, повреждение данных при передаче или хранении или несовпадение определений в словаре данных.
Дополнительные сведения см. в статье DQS Knowledge Bases and Domains.
Компонент Full-text Search
Полнотекстовый поиск в SQL Server позволяет приложениям и пользователям выполнять полнотекстовые запросы к символьным данным в таблицах SQL Server. Если полнотекстовый поиск включен, можно выполнять операции поиска в текстовых данных с учетом правил о форме слов или фраз для конкретного языка. Можно задать такие условия поиска, как расстояние между несколькими терминами, а также использовать функции для ограничения возвращаемых результатов с учетом их правдоподобия.
Так как функция полнотекстового поиска предоставляется ядром SQL Server, можно создавать параметризированные запросы, пользовательские наборы данных или векторы терминов с помощью функций полнотекстового поиска в источнике текстовых данных и использовать эти источники в интеллектуальном анализе данных.
Дополнительные сведения о том, как полнотекстовые запросы взаимодействуют с полнотекстовым индексом, см. в разделе Запрос с полнотекстовым поиском.
Функции полнотекстового поиска SQL Server позволяют использовать языковой анализ, содержащийся в средствах разбиения по словам и парадигматических модулях, которые предоставляются для всех языков SQL Server. Используя средства разбиения по словам и парадигматические модули, можно быть уверенным в том, что слова в каждом языке разделяются соответствующим знаком и не пропускаются синонимы, появившиеся в результате диакритических и орфографических различий (например, нескольких форматов чисел в японском языке).
Помимо лингвистического анализа, определяющего границы слов, парадигматические модули для каждого языка могут свести варианты слова к одному термину с помощью правил спряжения глаголов и орфографических вариантов в языке. Правила лингвистического анализа для каждого языка свои и определяются на основе результатов глубоких исследований реальных текстов.
Дополнительные сведения о парадигматических модулях см. в разделе Настройка средств разбиения на слова и парадигматические модули для поиска и управление ими.
Версия слова, которая сохраняется после полнотекстового индексирования — это токен в сжатой форме. Последующие запросы к полнотекстовому индексу создают многочисленные грамматические формы слова на основе правил конкретного языка. Таким образом обнаруживаются все возможные совпадения. Например, хотя хранимый маркер может быть "run", обработчик запросов также ищет термины "running", "run" и "runner", так как это регулярно производные морфологические вариации корневого слова "run".
Можно также создать и построить пользовательский тезаурус для хранения синонимов, получения лучших результатов поиска и разбивки терминов на категории. Подготовив тезаурус, ориентированный на пользовательские полнотекстовые данные, можно эффективно расширить область полнотекстовых запросов к этим данным. Дополнительные сведения см. в разделе Настройка файлов тезауруса для полнотекстового поиска и управление ими.
Условия использования полнотекстового поиска следующие.
Администратор базы данных должен создать полнотекстовый индекс для таблицы.
На одну таблицу может приходиться только один полнотекстовый индекс.
Каждый индексируемый столбец должен иметь уникальный ключ.
Полнотекстовое индексирование поддерживается только для столбцов с этими типами данных: char, varchar, nchar, nvarchar, text, ntext, image, xml, varbinary и varbinary(max). Если столбец имеет тип данных varbinary, varbinary(max), image или xml, необходимо указать в отдельном столбце типа расширение файла документа, который может индексироваться (.doc, .pdf, .xls и т. д.).
семантическое индексирование
Семантический поиск основан на существующих функциях полнотекстового поиска в SQL Server, но использует дополнительные возможности и статистику для таких сценариев, как автоматическое извлечение ключевого слова и обнаружение соответствующих документов. Например, с помощью семантического поиска можно создать базовую классификацию терминов для организации или классифицировать набор документов. Или можно использовать сочетание извлеченных терминов и показателей сходства документов в моделях кластеризации или дереве принятия решений.
Когда семантический поиск успешно включен и столбцы данных проиндексированы, можно использовать встроенные функции с семантическим индексированием, чтобы делать следующее.
Возвращать ключевые фразы из одного слова с их рейтингом.
Возвращать документы, содержащие заданную ключевую фразу
Возвращать показатели сходства и термины, по которым они были вычислены.
Дополнительные сведения см. в разделе Поиск ключевых фраз в документах с использованием семантического поиска и Поиск похожих и связанных документов с использованием семантического поиска.
Дополнительные сведения об объектах базы данных, поддерживающих семантическое индексирование, см. в разделе Включение семантического поиска в таблицах и столбцах.
Условия использования семантического поиска следующие.
Полнотекстовый поиск также должен быть включен.
При установке компонентов семантического поиска создается специальная системная база данных, которую невозможно переименовать, изменить или заменить.
Документы, индексируемые с помощью этой службы, должны храниться в SQL Server в любом из объектов базы данных, где поддерживается полнотекстовое индексирования, включая таблицы и индексированные представления.
Не все полнотекстовые языки поддерживают семантическое индексирование. Список поддерживаемых языков см. в разделе sys.fulltext_semantic_languages (Transact-SQL).