Общие сведения о компонентах поиска
Решение поиска ИИ состоит из нескольких компонентов, каждый из которых играет важную роль в процессе извлечения, обогащения, индексирования и поиска данных.
Источник данных
Создание большинства поисковых решений начинается с источника данных, содержащего данные, в которых необходимо выполнять поиск. Поиск по искусственному интеллекту Azure поддерживает несколько типов источников данных, включая:
- Неструктурированные файлы в контейнерах хранилища BLOB-объектов Azure.
- Таблицы в Базе данных SQL Azure.
- Документы в Cosmos DB.
Поиск ИИ Azure может извлекать данные из этих источников данных для индексирования.
Кроме того, приложения могут отправлять данные в формате JSON непосредственно в индекс, не извлекая их из существующего хранилища данных.
Набор навыков
В базовом решении поиска можно индексировать данные, извлеченные из источника данных. Сведения, которые могут быть извлечены, зависят от источника данных. Например, при индексировании данных в базе данных поля в таблицах базы данных могут быть извлечены; или при индексировании набора документов, метаданных файлов, таких как имя файла, дата изменения, размер и автор, можно извлечь вместе с текстовым содержимым документа.
Хотя базовое решение поиска, которое индексирует значения данных, извлеченные непосредственно из источника данных, может быть полезно, для пользователей современных приложений требуется более глубокое понимание данных. В службе "Поиск ИИ Azure" можно применять навыки искусственного интеллекта (ИИ) в рамках процесса индексирования для обогащения исходных данных новыми сведениями, которые можно сопоставить с полями индекса. Навыки, используемые индексатором, инкапсулируются в наборе навыков, который определяет конвейер обогащения, в котором каждый шаг расширяет исходные данные с помощью аналитических данных, полученных конкретным навыком искусственного интеллекта. Ниже приведены примеры сведений, которые могут быть извлечены навыком искусственного интеллекта:
- язык, на котором написан документ;
- ключевые фразы, по которым можно определить основные темы документа;
- оценка тональности, которая показывает, насколько положительным или отрицательным является документ по характеру высказываний;
- местоположения, люди, организации или ориентиры, упомянутые в содержимом;
- AI — описания изображений или текста изображений, извлеченных оптическим распознаванием символов.
- пользовательские навыки, разрабатываемые для удовлетворения конкретных требований.
Индексатор
Индексатор — это подсистема, которая управляет общим процессом индексирования. Он принимает извлеченные выходные данные с использованием навыков в наборе навыков, а также значения данных и метаданных, извлеченные из исходного источника данных, и сопоставляет их с полями в индексе.
Индексатор автоматически запускается при его создании и может выполняться с регулярными интервалами или по требованию для добавления документов в индекс. В некоторых случаях, например при добавлении новых полей в индекс или новых навыков в набор навыков, может потребоваться сбросить индекс перед повторным запуском индексатора.
Индекс
Индекс является доступным для поиска результатом процесса индексирования. Он состоит из коллекции документов в формате JSON с полями, которые содержат значения, извлеченные во время индексирования. Клиентские приложения могут запрашивать индекс для получения, фильтрации и сортировки данных.
Для каждого поля индекса можно настроить следующие атрибуты.
- key: поля, определяющие уникальный ключ для записей индекса.
- searchable: поля, которые можно запрашивать с помощью полнотекстового поиска.
- filterable: поля, которые можно включать в критерии фильтра, чтобы возвращать только документы, соответствующие указанным ограничениям.
- sortable: поля, которые можно использовать для упорядочивания результатов.
- с поддержкой аспектов: поля, которые можно использовать для определения значений для аспектов (элементов пользовательского интерфейса, используемых для фильтрации результатов на основе списка известных значений полей).
- retrievable: поля, которые можно включать в результаты поиска (по умолчанию все поля доступны для извлечения, если только этот атрибут не удален явно).