Общие сведения о компонентах поиска

5 мин

Решение поиска ИИ состоит из нескольких компонентов, каждый из которых играет важную роль в процессе извлечения, обогащения, индексирования и поиска данных.

Источник данных

Создание большинства поисковых решений начинается с источника данных, содержащего данные, в которых необходимо выполнять поиск. Поиск по искусственному интеллекту Azure поддерживает несколько типов источников данных, включая:

Неструктурированные файлы в контейнерах хранилища BLOB-объектов Azure.
Таблицы в Базе данных SQL Azure.
Документы в Cosmos DB.

Поиск ИИ Azure может извлекать данные из этих источников данных для индексирования.

Кроме того, приложения могут отправлять данные в формате JSON непосредственно в индекс, не извлекая их из существующего хранилища данных.

Набор навыков

В базовом решении поиска можно индексировать данные, извлеченные из источника данных. Сведения, которые могут быть извлечены, зависят от источника данных. Например, при индексировании данных в базе данных поля в таблицах базы данных могут быть извлечены; или при индексировании набора документов, метаданных файлов, таких как имя файла, дата изменения, размер и автор, можно извлечь вместе с текстовым содержимым документа.

Хотя базовое решение поиска, которое индексирует значения данных, извлеченные непосредственно из источника данных, может быть полезно, для пользователей современных приложений требуется более глубокое понимание данных. В службе "Поиск ИИ Azure" можно применять навыки искусственного интеллекта (ИИ) в рамках процесса индексирования для обогащения исходных данных новыми сведениями, которые можно сопоставить с полями индекса. Навыки, используемые индексатором, инкапсулируются в наборе навыков, который определяет конвейер обогащения, в котором каждый шаг расширяет исходные данные с помощью аналитических данных, полученных конкретным навыком искусственного интеллекта. Ниже приведены примеры сведений, которые могут быть извлечены навыком искусственного интеллекта:

язык, на котором написан документ;
ключевые фразы, по которым можно определить основные темы документа;
оценка тональности, которая показывает, насколько положительным или отрицательным является документ по характеру высказываний;
местоположения, люди, организации или ориентиры, упомянутые в содержимом;
AI — описания изображений или текста изображений, извлеченных оптическим распознаванием символов.
пользовательские навыки, разрабатываемые для удовлетворения конкретных требований.

Индексатор

Индексатор — это подсистема, которая управляет общим процессом индексирования. Он принимает извлеченные выходные данные с использованием навыков в наборе навыков, а также значения данных и метаданных, извлеченные из исходного источника данных, и сопоставляет их с полями в индексе.

Индексатор автоматически запускается при его создании и может выполняться с регулярными интервалами или по требованию для добавления документов в индекс. В некоторых случаях, например при добавлении новых полей в индекс или новых навыков в набор навыков, может потребоваться сбросить индекс перед повторным запуском индексатора.

Индекс

Индекс является доступным для поиска результатом процесса индексирования. Он состоит из коллекции документов в формате JSON с полями, которые содержат значения, извлеченные во время индексирования. Клиентские приложения могут запрашивать индекс для получения, фильтрации и сортировки данных.

Для каждого поля индекса можно настроить следующие атрибуты.

key: поля, определяющие уникальный ключ для записей индекса.
searchable: поля, которые можно запрашивать с помощью полнотекстового поиска.
filterable: поля, которые можно включать в критерии фильтра, чтобы возвращать только документы, соответствующие указанным ограничениям.
sortable: поля, которые можно использовать для упорядочивания результатов.
с поддержкой аспектов: поля, которые можно использовать для определения значений для аспектов (элементов пользовательского интерфейса, используемых для фильтрации результатов на основе списка известных значений полей).
retrievable: поля, которые можно включать в результаты поиска (по умолчанию все поля доступны для извлечения, если только этот атрибут не удален явно).

Общие сведения о компонентах поиска

Источник данных

Набор навыков

Индексатор

Индекс

Обратная связь