Общие сведения о компонентах поиска

Завершено

Решение поиска ИИ состоит из нескольких компонентов, каждый из которых играет важную роль в процессе извлечения, обогащения, индексирования и поиска данных.

Источник данных

Схема, показывающая концептуальную иллюстрацию источника данных.

Создание большинства поисковых решений начинается с источника данных, содержащего данные, в которых необходимо выполнять поиск. Поиск по искусственному интеллекту Azure поддерживает несколько типов источников данных, включая:

  • Неструктурированные файлы в контейнерах хранилища BLOB-объектов Azure.
  • Таблицы в Базе данных SQL Azure.
  • Документы в Cosmos DB.

Поиск ИИ Azure может извлекать данные из этих источников данных для индексирования.

Кроме того, приложения могут отправлять данные в формате JSON непосредственно в индекс, не извлекая их из существующего хранилища данных.

Набор навыков

Схема концептуальной иллюстрации набора навыков.

В базовом решении поиска можно индексировать данные, извлеченные из источника данных. Сведения, которые могут быть извлечены, зависят от источника данных. Например, при индексировании данных в базе данных поля в таблицах базы данных могут быть извлечены; или при индексировании набора документов, метаданных файлов, таких как имя файла, дата изменения, размер и автор, можно извлечь вместе с текстовым содержимым документа.

Хотя базовое решение поиска, которое индексирует значения данных, извлеченные непосредственно из источника данных, может быть полезно, для пользователей современных приложений требуется более глубокое понимание данных. В службе "Поиск ИИ Azure" можно применять навыки искусственного интеллекта (ИИ) в рамках процесса индексирования для обогащения исходных данных новыми сведениями, которые можно сопоставить с полями индекса. Навыки, используемые индексатором, инкапсулируются в наборе навыков, который определяет конвейер обогащения, в котором каждый шаг расширяет исходные данные с помощью аналитических данных, полученных конкретным навыком искусственного интеллекта. Ниже приведены примеры сведений, которые могут быть извлечены навыком искусственного интеллекта:

  • язык, на котором написан документ;
  • ключевые фразы, по которым можно определить основные темы документа;
  • оценка тональности, которая показывает, насколько положительным или отрицательным является документ по характеру высказываний;
  • местоположения, люди, организации или ориентиры, упомянутые в содержимом;
  • AI — описания изображений или текста изображений, извлеченных оптическим распознаванием символов.
  • пользовательские навыки, разрабатываемые для удовлетворения конкретных требований.

Индексатор

Схема, на которой показана сотрясающая иллюстрация индексатора.

Индексатор — это подсистема, которая управляет общим процессом индексирования. Он принимает извлеченные выходные данные с использованием навыков в наборе навыков, а также значения данных и метаданных, извлеченные из исходного источника данных, и сопоставляет их с полями в индексе.

Индексатор автоматически запускается при его создании и может выполняться с регулярными интервалами или по требованию для добавления документов в индекс. В некоторых случаях, например при добавлении новых полей в индекс или новых навыков в набор навыков, может потребоваться сбросить индекс перед повторным запуском индексатора.

Индекс

Схема, на которой показана сотрясающая иллюстрация индекса.

Индекс является доступным для поиска результатом процесса индексирования. Он состоит из коллекции документов в формате JSON с полями, которые содержат значения, извлеченные во время индексирования. Клиентские приложения могут запрашивать индекс для получения, фильтрации и сортировки данных.

Для каждого поля индекса можно настроить следующие атрибуты.

  • key: поля, определяющие уникальный ключ для записей индекса.
  • searchable: поля, которые можно запрашивать с помощью полнотекстового поиска.
  • filterable: поля, которые можно включать в критерии фильтра, чтобы возвращать только документы, соответствующие указанным ограничениям.
  • sortable: поля, которые можно использовать для упорядочивания результатов.
  • с поддержкой аспектов: поля, которые можно использовать для определения значений для аспектов (элементов пользовательского интерфейса, используемых для фильтрации результатов на основе списка известных значений полей).
  • retrievable: поля, которые можно включать в результаты поиска (по умолчанию все поля доступны для извлечения, если только этот атрибут не удален явно).