Поделиться через


Корпоративные веб-сайты, локальный соединитель Microsoft Graph

Соединитель Microsoft Graph для корпоративных веб-сайтов позволяет вашей организации индексировать веб-страницы и содержимое с веб-сайтов компании. После настройки соединителя и индексирования содержимого веб-сайтов пользователи могут искать это содержимое в поиске (Майкрософт) и Microsoft 365 Copilot.

Эта статья предназначена для администраторов Microsoft 365 или тех, кто настраивает, запускает и отслеживает локальный соединитель Microsoft Graph корпоративных веб-сайтов.

Возможности

  • Индексирование веб-страниц с локальных веб-сайтов или веб-сайтов, размещенных в частном облаке.
  • Индексирование до 50 веб-сайтов в одном подключении.
  • Исключите веб-страницы из обхода с помощью правил исключения.
  • Используйте семантический поиск в Copilot , чтобы пользователи могли находить соответствующее содержимое.

Поддерживаемые типы файлов

Расширение файла Тип файла Описание
PDF PDF Формат PDF
.odt Текст OpenDocument Текстовый документ OpenDocument
.ods Электронная таблица OpenDocument Электронная таблица OpenDocument
ODP-файл Презентация OpenDocument Презентация OpenDocument
ODG-файл Графика OpenDocument Графика OpenDocument
XLS Excel (старый) Электронная таблица Excel (старый формат)
XLSX Excel (новое) Электронная таблица Excel (новый формат)
PPT PowerPoint (старая версия) Презентация PowerPoint (старый формат)
PPTX PowerPoint (новый) Презентация PowerPoint (новый формат)
DOC Word (старая версия) документ Word (старый формат)
DOCX Word (новое) документ Word (новый формат)
.csv CSV значения Comma-Separated
.txt обычный текст; Обычный текстовый файл
.xml XML Расширяемый язык разметки
MD-файл Markdown Файл Markdown
RTF Rich Text Format Rich Text Format
.tsv Значения, разделенные табуляции значения Tab-Separated

Поддерживаемые типы MIME

Тип MIME Описание
text/html Язык HTML, используемый для форматирования структуры веб-страницы.
text/webviewhtml Тип MIME, используемый для веб-содержимого, отображаемого в элементах управления WebView.
text/x-server-parsed-html Проанализированные сервером HTML-документы, часто используемые для серверных включений (SSI).

Ограничения

  • Соединитель не поддерживает такие механизмы проверки подлинности, как SAML, токен JWT, проверка подлинности на основе Forms и т. д.

Предварительные условия

  • Вы должны быть администратором поиска для клиента Microsoft 365 вашей организации.
  • Установите агент соединителя Microsoft Graph. Чтобы получить доступ к локальным веб-сайтам, необходимо установить и настроить агент соединителя Microsoft Graph. Скачайте установщик агента и следуйте инструкциям по установке, чтобы настроить его. После установки убедитесь, что агент настроен правильно для подключения локальных веб-сайтов к соединителю.
  • URL-адреса веб-сайта. Чтобы подключиться к содержимому веб-сайта, вам потребуется URL-адрес веб-сайта. Вы можете индексировать несколько веб-сайтов (до 50) в одном соединении.
  • Учетная запись службы (необязательно): учетная запись службы требуется только в том случае, если веб-сайты требуют проверки подлинности. Общедоступные веб-сайты не требуют проверки подлинности, и их можно сканировать напрямую. Для веб-сайтов, требующих проверки подлинности, рекомендуется иметь выделенную учетную запись для проверки подлинности и обхода контента.

Начало работы

Снимок экрана, на котором показан экран создания подключения для локального соединителя Microsoft Graph для корпоративных веб-сайтов.

1. Отображаемое имя

Отображаемое имя используется для идентификации каждой ссылки в Copilot, помогая пользователям легко распознавать связанный файл или элемент. Отображаемое имя также означает доверенное содержимое. Отображаемое имя также используется в качестве фильтра источника содержимого. Для этого поля используется значение по умолчанию, но его можно настроить на имя, которое распознают пользователи в вашей организации.

2. URL-адреса веб-сайта для индексирования

Укажите корень веб-сайта, который вы хотите сканировать. Локальный соединитель Microsoft Graph корпоративных веб-сайтов использует этот URL-адрес в качестве отправной точки и перейдите по всем ссылкам из этого URL-адреса для обхода. В одном подключении можно проиндексировать до 50 различных URL-адресов сайтов. В поле URL-адреса введите URL-адреса сайта, разделенные запятыми (,). Например, https://www.contoso.com,https://www.contosoelectronics.com.

Примечание.

Соединитель всегда начинает обход контента из корня URL-адреса. Например, если предоставленный URL-адрес — https://www.contoso.com/electronics, то соединитель начнет обход контента из https://www.contoso.com.

Соединитель сканирует только веб-страницы в домене корневых URL-адресов и не поддерживает обход URL-адресов вне домена. Перенаправление поддерживается только в том же домене. Если на веб-страницах для обхода есть перенаправления, вы можете добавить перенаправленный URL-адрес непосредственно в список URL-адресов для обхода.

Использование карты сайта для обхода контента

Если этот параметр выбран, соединитель сканирует только URL-адреса, перечисленные в карте сайта. Этот параметр также позволяет настроить добавочный обход контента на более позднем этапе. Если не выбрано или карта сайта не найдена, соединитель выполняет глубокий обход всех ссылок, найденных в корневом URL-адресе сайта.

Если этот параметр выбран, средство-обходчик выполняет следующие действия:

А. Средство-обходчик ищет файл robots.txt в корневом расположении. Например, если указан URL-адрес https://www.contoso.com, то средство-обходчик ищет файл robots.txt по адресу https://www.contoso.com/robots.txt.

Б. При поиске файла robots.txt программа-обходчик находит ссылки карты сайта в файле robots.txt.

c. Затем сканер сканирует все веб-страницы, как указано в файлах карты сайта.

d. Если на любом из описанных выше шагов произошел сбой, средство-обходчик выполняет глубокое сканирование веб-сайта, не вызывая никаких ошибок.

3. Агент соединителя Graph

Агент соединителя Graph выступает в качестве моста между экземпляром веб-сайта и API соединителя, обеспечивая безопасную и эффективную передачу данных. На этом шаге выберите конфигурацию агента, которую вы хотите использовать для соединителя.

Если агент соединителя Microsoft Graph еще не установлен, можно скачать установщик агента и следовать инструкциям по установке, чтобы настроить его. После установки убедитесь, что агент настроен правильно для подключения локальных веб-сайтов к соединителю.

4. Тип проверки подлинности

Выбранный метод проверки подлинности применяется ко всем веб-сайтам, предоставленным для индексирования в соединении. Для проверки подлинности и синхронизации содержимого с веб-сайтов выберите один из пяти поддерживаемых методов:

А. Нет
Выберите этот параметр, если веб-сайты общедоступны без каких-либо требований проверки подлинности.

Б. Обычная проверка подлинности
Введите имя пользователя и пароль учетной записи для проверки подлинности с помощью обычной проверки подлинности.

Совет

Попробуйте несколько перестановок имени пользователя для проверки подлинности. Примеры-

  • username
  • username@domain.com
  • домен или имя пользователя

c. Windows
проверка подлинности Windows требуется имя пользователя, домен и пароль. Необходимо указать имя пользователя и домен в поле Имя пользователя в любом из следующих форматов: домен\имя_пользователя или username@domain. В поле Пароль необходимо ввести пароль. Для проверка подлинности Windows предоставленное имя пользователя также должно быть администратором на сервере, на котором установлен агент.

d. SiteMinder
Для проверки подлинности SiteMinder требуется правильно отформатированный URL-адрес, https://custom_siteminder_hostname/smapi/rest/createsmsessionимя пользователя и пароль.

e. Microsoft Entra учетные данные клиента OAuth 2.0
OAuth 2.0 с Microsoft Entra ID требуется идентификатор ресурса, идентификатор клиента и секрет клиента.

Идентификатор ресурса, идентификатор клиента и значения секрета клиента зависят от того, как вы выполнили настройку проверки подлинности на основе Microsoft Entra ID для веб-сайта. Один из двух указанных вариантов может подойти для вашего веб-сайта:

  1. Если вы используете приложение Microsoft Entra как поставщик удостоверений, так и клиентское приложение для доступа к веб-сайту, идентификатор клиента и идентификатор ресурса являются идентификатором приложения этого отдельного приложения, а секрет клиента — это секрет, созданный в этом приложении.

    После настройки клиентского приложения обязательно создайте секрет клиента, перейдя в раздел Сертификаты & секреты приложения. Скопируйте значение секрета клиента, отображаемое на странице, так как оно не отображается снова.

    На следующих снимках экрана вы можете просмотреть шаги по получению идентификатора клиента и секрета клиента, а также настроить приложение, если вы создаете приложение самостоятельно.

    • Просмотр параметров в разделе фирменной символики:

    • Просмотр параметров в разделе проверки подлинности:

      Примечание.

      Не требуется использовать указанный выше маршрут для URI перенаправления на веб-сайте. Только если вы используете маркер пользователя, отправленный Azure на веб-сайте для проверки подлинности, вам потребуется маршрут.

    • Просмотр идентификатора клиента в разделе Essentials:

    • Просмотр секрета клиента в разделе Сертификаты & секреты :

  2. Если вы используете приложение (первое приложение) в качестве поставщика удостоверений для своего веб-сайта в качестве ресурса и другое приложение (второе приложение) для доступа к веб-сайту, идентификатор клиента — это идентификатор приложения второго приложения, а секрет клиента — секрет, настроенный во втором приложении. Однако идентификатор ресурса — это идентификатор вашего первого приложения.

    Вам не нужно настраивать секрет клиента в этом приложении, но необходимо добавить роль приложения в разделе Роли приложения , который позже будет назначен вашему клиентскому приложению. См. изображения, чтобы узнать, как добавить роль приложения.

    • Создание роли приложения:

    • Изменение новой роли приложения:

      После настройки приложения-ресурса создайте клиентское приложение и предоставьте ему разрешение на доступ к приложению-ресурсу, добавив роль приложения, настроенную выше, в разрешениях API клиентского приложения.

      Примечание.

      Сведения о предоставлении разрешений клиентскому приложению см. в статье Краткое руководство. Настройка клиентского приложения для доступа к веб-API.

    На следующих снимках экрана показан раздел предоставления разрешений клиентскому приложению.

    • Добавление разрешения:

    • Выбор разрешений:

    • Добавление разрешений:

    После назначения разрешений необходимо создать секрет клиента для этого приложения, перейдя в раздел Сертификаты & секреты. Скопируйте значение секрета клиента, отображаемое на странице, так как оно не отображается снова. Используйте идентификатор приложения из этого приложения в качестве идентификатора клиента, секрет из этого приложения в качестве секрета клиента и идентификатор приложения первого приложения в качестве идентификатора ресурса.

4. Развертывание для ограниченной аудитории

Разверните это подключение в ограниченной базе пользователей, если вы хотите проверить его в Copilot и других поверхностях поиска, прежде чем развернуть развертывание для более широкой аудитории. Дополнительные сведения об ограниченном выпуске см. в разделе Поэтапное развертывание.

На этом этапе вы готовы создать подключение для локальных веб-сайтов. Вы можете нажать кнопку Создать , чтобы опубликовать веб-страницы подключения и индексировать их с веб-сайтов.

Для других параметров, таких как разрешения доступа, правила включения данных, схема, частота обхода контента и т. д., у нас есть значения по умолчанию в зависимости от того, что лучше всего подходит для веб-сайтов. Ниже приведены значения по умолчанию:

Пользователи Описание
Разрешения доступа Все в вашей организации увидят это содержимое
Содержимое Описание
URL-адреса для исключения Нет
Управление свойствами Сведения о проверка свойств по умолчанию и их схеме см. в разделе содержимое.
Синхронизация Описание
Добавочный обход контента Частота: каждые 15 минут (поддерживается только при обходе карты сайта)
Полный обход контента Частота: каждый день

Если вы хотите изменить любое из этих значений, необходимо выбрать параметр "Настраиваемая настройка".

Настраиваемая настройка

Пользовательская настройка предназначена для администраторов, которые хотят изменить значения по умолчанию для параметров, перечисленных в таблице выше. Щелкнув параметр "Настраиваемая настройка", вы увидите еще три вкладки: Пользователи, Содержимое и Синхронизация.

Пользователи

Снимок экрана: вкладка

Разрешения доступа

Локальный соединитель корпоративных веб-сайтов поддерживает разрешения на поиск, видимые только для всех . Индексированные данные отображаются в результатах поиска для всех пользователей в вашей организации.

Содержимое

Снимок экрана: вкладка

Добавление URL-адресов для исключения (необязательные ограничения обхода контента)

Существует два способа предотвратить обход страниц: запретить их в файле robots.txt или добавить в список исключений.

  1. Поддержка robots.txt

    Соединитель проверяет, есть ли файл robots.txt для корневого сайта. Если он существует, он следует и учитывает направления, найденные в этом файле. Если вы не хотите, чтобы соединитель выполнял обход определенных страниц или каталогов на сайте, добавьте эти страницы или каталоги в объявления "Запретить" в файл robots.txt.

  2. Добавление URL-адресов для исключения

    При необходимости можно создать список исключений , чтобы исключить некоторые URL-адреса из обхода, если это содержимое является конфиденциальным или не стоит обхода. Чтобы создать список исключений, просмотрите корневой URL-адрес. Исключенные URL-адреса можно добавить в список во время процесса настройки.

Динамическая конфигурация сайта

Если ваш веб-сайт содержит динамическое содержимое, например веб-страницы, которые живут в системах управления содержимым, таких как Confluence или Unily, вы можете включить динамический сканер. Чтобы включить его, выберите Включить обход контента для динамических сайтов. Средство-обходчик ожидает отрисовки динамического содержимого, прежде чем начнет обход контента.

Помимо проверка поля доступны три необязательных поля:

  1. Готов к DOM. Введите элемент DOM, который должен использовать обходчиком в качестве сигнала о том, что содержимое полностью отрисовывается и начинается обход контента.
  2. Добавляемые заголовки. Укажите, какие заголовки HTTP должны включаться обходчиком при отправке этого конкретного веб-URL-адреса. Можно задать несколько заголовков для разных веб-сайтов. Мы рекомендуем включить значения маркера проверки подлинности.
  3. Пропущенные заголовки. Укажите все ненужные заголовки, которые следует исключить из динамических запросов обхода контента.

Заголовки должны быть добавлены в следующем синтаксисе: {"Root-URL":["TKey=TValue"]}

Пример: {"https://www.contoso.com":["Token=Value","Type=Value2"]}

Управление свойствами

Здесь можно добавить или удалить доступные свойства с веб-сайтов, назначить схему свойству (определить, является ли свойство доступным для поиска, с возможностью запроса, с возможностью извлечения или уточнения), изменить семантиковую метку и добавить псевдоним в свойство . Свойства, выбранные по умолчанию, перечислены ниже.

Свойство source Метка Описание Схема
авторов авторов Люди, которые участвовали в работе с элементом в источнике данных Запрос, извлечение
Содержимое Содержимое Все текстовое содержимое веб-страницы Поиск
CreatedDateTime Дата создания Данные и время создания элемента в источнике данных Запрос, извлечение
Описание Извлечение, поиск
FileType Расширение файла Расширение файла для контента для обхода Запрос, уточнение, извлечение
ЗначокURL IconUrl URL-адрес значка веб-страницы Восстанавливать
LastModifiedBy Автор последнего изменения Пользователь, который в последний раз изменял элемент в источнике данных Запрос, извлечение
LastModifiedDateTime Время последней измененной даты Дата и время последнего изменения элемента в источнике данных. Запрос, извлечение
Title Title Заголовок элемента, который вы хотите показать в Copilot и других интерфейсах поиска Извлечение, поиск
URL-адрес url Целевой URL-адрес элемента в источнике данных Восстанавливать

Локальный соединитель корпоративного веб-сайта поддерживает два типа свойств источника:

  1. Метатег

    Соединитель извлекает все метатеги, которые могут иметь корневые URL-адреса, и отображает их. Вы можете выбрать теги, которые следует включить для обхода контента. Выбранный тег индексируется для всех предоставленных URL-адресов, если они доступны.

    Снимок экрана: вкладка

    Выбранные метатеги можно использовать для создания пользовательских свойств. Кроме того, на странице схемы вы можете управлять ими дальше (с возможностью запроса, с возможностью поиска, с возможностью извлечения, с возможностью уточнения).

  2. Параметры пользовательских свойств

    Индексированные данные можно дополнить, создав пользовательские свойства для выбранных метатегов или свойства соединителя по умолчанию.

    Снимок экрана: вкладка

    Чтобы добавить пользовательское свойство, выполните приведенные далее действия.

    1. Введите имя свойства. Это имя отображается в результатах поиска из этого соединителя.
    2. Для значения выберите Статическое или Строковое/регулярное сопоставление. Статическое значение включается во все результаты поиска из этого соединителя. Строковое или регулярное значение зависит от добавляемого правила.
    3. Если выбрано статическое значение, введите значение, которое вы хотите отображать.
    4. Если вы выбрали значение String/rRegex:
      • В разделе Добавление выражений в списке Свойства выберите свойство по умолчанию или мета-тег из списка. В поле Пример значения введите строку, представляющую тип значений, которые могут отображаться. Этот пример используется при предварительном просмотре правила. В поле Выражение введите регулярное выражение, чтобы определить часть значения свойства, которая должна отображаться в результатах поиска. Можно добавить до трех выражений.
      • В разделе Создание формулы введите формулу для объединения значений, извлеченных из выражений.

Дополнительные сведения о регулярных выражениях см. в разделе Регулярные выражения .NET или найдите в Интернете справочное руководство по выражению регулярных выражений.

Синхронизация

Снимок экрана: вкладка

Интервал обновления определяет частоту синхронизации данных между источником данных и индексом соединителя Graph. Существует два типа интервалов обновления: полный обход контента и добавочный обход контента. Дополнительные сведения см. в разделе Параметры обновления.

При необходимости можно изменить значения интервала обновления по умолчанию.

Примечание.

Добавочный обход контента поддерживается только в том случае, если выбран параметр обхода карты сайта.

Устранение неполадок

После публикации подключения можно просмотреть состояние на вкладке Источники данных в Центре администрирования. Сведения об обновлении и удалении см. в статье Управление соединителем. Инструкции по устранению распространенных проблем можно найти здесь.

Если у вас возникли проблемы или вы хотите отправить отзыв, обратитесь в Microsoft Graph | Поддержка.