企业网站本地Microsoft图形连接器
本地企业网站Microsoft Graph 连接器允许组织 为公司拥有的网站中的网页和内容编制索引。 配置连接器并索引网站中的内容后,最终用户可以从Microsoft搜索和智能 Microsoft 365 Copilot 副驾驶®中搜索该内容。
本文适用于 Microsoft 365 名管理员或配置、运行和监视企业网站本地Microsoft Graph 连接器的任何人。
功能
- 为本地或私有云托管网站的网页编制索引。
- 在单个连接中为最多 50 个网站编制索引。
- 使用排除规则从爬网中排除网页。
- 使用 Copilot 中的语义搜索 使用户能够查找相关内容。
支持的文件类型
File Extension | 文件类型 | 说明 |
---|---|---|
Portable Document Format | ||
.odt | OpenDocument 文本 | OpenDocument 文本文档 |
.ods | OpenDocument 电子表格 | OpenDocument 电子表格 |
.odp | OpenDocument 演示文稿 | OpenDocument 演示文稿 |
.odg | OpenDocument Graphics | OpenDocument Graphics |
.xls | Excel (旧) | Excel 电子表格 (旧格式) |
.xlsx | Excel (新建) | Excel 电子表格 (新格式) |
.ppt | PowerPoint (旧) | PowerPoint 演示文稿 (旧格式) |
.pptx | PowerPoint (新) | PowerPoint 演示文稿 (新格式) |
.doc | Word (旧) | Word文档 (旧格式) |
.docx | Word (新) | Word文档 (新格式) |
.csv | CSV | Comma-Separated 值 |
.txt | 纯文本 | 纯文本文件 |
.xml | XML | 可扩展标记语言 |
.md | Markdown | Markdown 文件 |
.rtf | Rtf 格式 | Rtf 格式 |
.tsv | 制表符分隔值 | Tab-Separated 值 |
支持的 MIME 类型
MIME 类型 | 说明 |
---|---|
text/html | 用于设置网页结构格式的超文本标记语言 (HTML) 。 |
text/webviewhtml | 用于 WebView 控件中呈现的 Web 内容的 MIME 类型。 |
text/x-server-parsed-html | 服务器分析的 HTML 文档,通常用于服务器端包含 (SSI) 。 |
限制
- 连接器不支持 SAML、JWT 令牌、基于Forms的身份验证等身份验证机制。
先决条件
- 你必须是组织的 Microsoft 365 租户的 搜索管理员 。
- 安装 Microsoft Graph 连接器代理:若要访问本地网站,必须安装和配置 Microsoft Graph 连接器代理。 下载代理安装程序 ,并按照安装说明进行设置。 安装后,请确保正确配置代理以将本地网站与连接器连接。
- 网站 URL:若要连接到网站内容,需要网站的 URL。 可以在单个连接中为多个网站编制索引 (最多 50) 。
- 服务帐户 (可选) :仅当网站需要身份验证时,才需要服务帐户。 公共网站不需要身份验证,可以直接对其进行爬网。 对于需要身份验证的网站,建议有一个专用帐户来对内容进行身份验证和爬网。
入门
1. 显示名称
显示名称用于标识 Copilot 中的每个引文,帮助用户轻松识别关联的文件或项目。 显示名称还表示受信任的内容。 显示名称也用作 内容源筛选器。 此字段存在默认值,但你可以将其自定义为组织中的用户可识别的名称。
2. 要编制索引的网站 URL
指定要爬网的网站根目录。 本地企业网站Microsoft Graph 连接器使用此 URL 作为起点,并跟踪此 URL 中的所有链接进行爬网。 在单个连接中最多可为 50 个不同的站点 URL 编制索引。 在“URL”字段中,输入以逗号 (,) 分隔的网站 URL。 例如,https://www.contoso.com,https://www.contosoelectronics.com
。
注意
连接器始终从 URL 的根目录开始爬网。 例如 , 如果提供的 URL 为 https://www.contoso.com/electronics
,则连接器将从 开始爬网 https://www.contoso.com
。
连接器仅对根 URL 域中的网页进行爬网,不支持对域外 URL 进行爬网。 仅在同一域中支持重定向。 如果要爬网的网页中有重定向,则可以直接将重定向的 URL 添加到要爬网的 URL 列表中。
使用站点地图进行爬网
选中后,连接器仅对站点地图中列出的 URL 进行爬网。 此选项还允许你在后面的步骤中配置增量爬网。 如果未选择或未找到站点地图,连接器会对网站根 URL 上找到的所有链接执行深层爬网。
选择此选项后,爬网程序将执行以下步骤:
a. 爬网程序在根位置中查找 robots.txt 文件。 例如 , 如果提供的 URL 为 https://www.contoso.com
,则爬网程序会在 中查找 robots.txt 文件 https://www.contoso.com/robots.txt
。
b. 找到 robots.txt 文件后,爬网程序会在 robots.txt 文件中查找站点地图链接。
c. 然后,爬网程序将爬网站点地图文件中列出的所有网页。
d. 如果上述任何步骤失败,爬网程序会对网站执行深度爬网,而不会引发任何错误。
3. Graph 连接器代理
Graph 连接器代理充当网站实例与连接器 API 之间的桥梁,可实现安全高效的数据传输。 在此步骤中,选择要用于连接器的代理配置。
如果尚未安装 Microsoft Graph 连接器代理 ,可以 下载代理安装程序 并按照安装说明进行设置。 安装后,请确保正确配置代理以将本地网站与连接器连接。
4.身份验证类型
你选择的身份验证方法适用于你提供给连接中索引的所有网站。 若要对网站内容进行身份验证和同步,请选择以下五种受支持的方法 之一 :
a.
无
如果网站无需任何身份验证要求即可公开访问,请选择此选项。
b.
基本身份验证
输入帐户的用户名和密码以使用基本身份验证进行身份验证。
c.
Windows
Windows 身份验证需要用户名、域和密码。 你需要在“用户名”字段中提供以下任何格式的 用户名 和域:domain\username 或 username@domain。 必须在“密码”字段中输入 密码 。 对于Windows 身份验证,提供的用户名还必须是安装代理的服务器中的管理员。
d.
SiteMinder
Siteminder 身份验证需要格式正确的 URL、 https://custom_siteminder_hostname/smapi/rest/createsmsession
用户名和密码。
e.
Microsoft Entra OAuth 2.0 客户端凭据
具有 Microsoft Entra ID 的 OAuth 2.0 需要资源 ID、客户端 ID 和客户端密码。
资源 ID、客户端 ID 和客户端密码值取决于如何为网站设置基于Microsoft Entra ID的身份验证。 两个指定选项之一可能适用于您的网站:
如果使用Microsoft Entra应用程序作为标识提供者和客户端应用来访问网站,则客户端 ID 和资源 ID 是此单个应用程序的应用程序 ID,客户端密码是在此应用程序中生成的机密。
注意
有关将客户端应用程序配置为标识提供者的详细步骤,请参阅快速入门:使用Microsoft 标识平台注册应用程序和配置App 服务或Azure Functions应用以使用Microsoft Entra登录名。
配置客户端应用后,请确保通过转到应用的 “证书 & 机密 ”部分创建新的客户端密码。 复制页中显示的客户端密码值,因为它不会再次显示。
在以下屏幕截图中,可以看到获取客户端 ID 和客户端密码的步骤,以及设置应用(如果要自行创建应用)。
品牌部分中的设置视图:
身份验证部分中设置的视图:
注意
无需在网站上具有上述重定向 URI 指定的路由。 仅当使用 Azure 在网站中发送的用户令牌进行身份验证时,才需要具有路由。
“Essentials”部分中的客户端 ID 视图:
“ 证书 & 机密 ”部分的客户端密码视图:
如果使用应用程序 (第一个应用) 作为网站的标识提供者作为资源,另一个应用程序 (第二个应用) 访问网站,则客户端 ID 是第二个应用的应用程序 ID,客户端密码是第二个应用中配置的机密。 但是,资源 ID 是第一个应用的 ID。
注意
有关将客户端应用程序配置为标识提供者的步骤,请参阅快速入门:使用Microsoft 标识平台注册应用程序和配置App 服务或Azure Functions应用以使用Microsoft Entra登录名。
无需在此应用程序中配置客户端密码,但需要在稍后分配给客户端应用程序的“ 应用角色 ”部分添加应用角色。 请参阅图像,了解如何添加应用角色。
创建新的应用角色:
编辑新的应用角色:
配置资源应用后,创建客户端应用,并通过在客户端应用的 API 权限中添加上面配置的应用角色来授予其访问资源应用的权限。
注意
若要了解如何向客户端应用授予权限,请参阅 快速入门:将客户端应用程序配置为访问 Web API。
以下屏幕截图显示了向客户端应用授予权限的部分。
添加权限:
选择权限:
添加权限:
分配权限后,需要转到“证书 & 机密”部分,为此应用程序创建新的客户端密码。 复制页面上显示的客户端机密值,因为它不会再次显示。 使用此应用的应用程序 ID 作为客户端 ID,将此应用中的机密用作客户端密码,将第一个应用的应用程序 ID 用作资源 ID。
4. 面向有限受众推出
如果要先在 Copilot 和其他搜索图面中验证此连接,然后再将此连接部署到有限的用户群,然后再将它扩展到更广泛的受众。 若要详细了解有限推出,请参阅 分阶段推出。
此时,已准备好为本地网站创建连接。 可以单击“ 创建 ”,从网站发布连接和索引网页。
对于其他设置(如 访问权限、 数据包含规则、 架构、 爬网频率等),我们提供了基于最适合网站的默认设置。 可以看到以下默认值:
用户 | 说明 |
---|---|
访问权限 | 组织中的每个人都将看到此内容 |
内容 | 说明 |
---|---|
要排除的 URL | 无 |
管理属性 | 若要检查默认属性及其架构,请参阅内容 |
同步 | 说明 |
---|---|
增量爬网 | 频率:每 15 分钟 (仅支持站点地图爬网) |
完全爬网 | 频率:每天 |
如果要编辑这些值中的任何一个,需要选择“自定义设置”选项。
自定义设置
自定义设置适用于想要编辑上表中列出的设置的默认值的管理员。 单击“自定义设置”选项后,会看到另外三个选项卡 - 用户、内容和同步。
用户
访问权限
企业网站本地连接器支持仅对 每个人 可见的搜索权限。 索引数据显示在组织中所有用户的搜索结果中。
内容
添加 URL 以排除 (可选的爬网限制)
可通过两种方法防止对页面进行爬网:禁止在 robots.txt 文件中对其进行爬网,或将其添加到“排除”列表。
支持 robots.txt
连接器检查根站点是否有 robots.txt 文件。 如果存在,则它遵循并遵循该文件中找到的说明。 如果不希望连接器对网站上的某些页面或目录进行爬网,请在 robots.txt 文件中的“不允许”声明中包括页面或目录。
添加要排除的 URL
可以选择创建 排除列表 ,以在内容敏感或不值得爬网时排除某些 URL 被爬网。 若要创建排除列表,请浏览根 URL。 可以在配置过程中将排除的 URL 添加到列表中。
动态站点配置
如果网站包含动态内容,例如位于内容管理系统(如 Confluence 或 Unily)中的网页,则可以启用动态爬网程序。 若要将其打开,请选择“ 为动态网站启用爬网”。 爬网程序在开始爬网之前等待动态内容呈现。
除了“检查”框外,还有三个可选字段可用:
- DOM 就绪:输入爬网程序应使用的 DOM 元素,作为内容完全呈现且爬网应开始的信号。
- 要添加的标头:指定爬网程序在发送该特定 Web URL 时应包含的 HTTP 标头。 可以为不同的网站设置多个标头。 建议包括身份验证令牌值。
- 要跳过的标头:指定要从动态爬网请求中排除的任何不必要的标头。
标头应按以下语法添加: {"Root-URL":["TKey=TValue"]}
例如:{"https://www.contoso.com":["Token=Value","Type=Value2"]}
管理属性
在这里,你可以在网站上添加或删除可用属性,为属性分配架构 (定义属性是可搜索的、可查询的、可检索的还是可精简的) ,更改语义标签并向属性添加别名。 下面列出了默认选择的属性。
Source 属性 | 标签 | 说明 | 架构 |
---|---|---|---|
作者 | 作者 | 参与数据源中项的人员 | 查询、检索 |
内容 | 内容 | 网页中的所有文本内容 | 搜索 |
CreatedDateTime | 创建日期时间 | 在数据源中创建项的数据和时间 | 查询、检索 |
说明 | 检索、搜索 | ||
FileType | 文件扩展名 | 已爬网内容的文件扩展名 | 查询、优化、检索 |
IconURL | IconUrl | 网页的图标 URL | 取回 |
LastModifiedBy | 最后一次修改者 | 上次修改数据源中项的人员 | 查询、检索 |
LastModifiedDateTime | 上次修改日期时间 | 上次在数据源中修改项的日期和时间。 | 查询、检索 |
标题 | 标题 | 要在 Copilot 和其他搜索体验中显示的项的标题 | 检索、搜索 |
URL | url | 数据源中的项的目标 URL | 取回 |
企业网站本地连接器支持两种类型的源属性:
Meta 标记
连接器提取根 URL 可能具有的任何元标记并显示它们。 可以选择要包含哪些标记进行爬网。 所选标记会为所有提供的 URL 编制索引(如果可用)。
所选元标记可用于创建自定义属性。 此外,在架构页上,可以进一步管理它们 (可查询、可搜索、可检索、可精简) 。
自定义属性设置
可以通过为所选元标记或连接器的默认属性创建自定义属性来扩充索引数据。
添加自定义属性:
- 输入属性名称。 此名称显示在此连接器的搜索结果中。
- 对于值,请选择“静态”或“字符串/正则表达式映射”。 静态值包含在此连接器的所有搜索结果中。 字符串/正则表达式值因添加的规则而异。
- 如果选择了静态值,请输入要显示的值。
- 如果选择了 String/rRegex 值:
- 在 “添加表达式” 部分的 “属性 ”列表中,从列表中选择默认属性或元标记。 对于 “示例值”,请输入一个字符串来表示可能显示的值的类型。 预览规则时使用此示例。 对于 “表达式”,请输入一个正则表达式来定义应出现在搜索结果中的属性值部分。 最多可以添加三个表达式。
- 在 “创建公式 ”部分中,输入公式以合并从表达式中提取的值。
若要了解有关正则表达式的详细信息,请参阅 .NET 正则表达式 或搜索 Web 以获取正则表达式参考指南。
同步
刷新间隔确定数据在数据源和 Graph 连接器索引之间同步的频率。 有两种类型的刷新间隔 - 完全爬网和增量爬网。 有关详细信息,请参阅 刷新设置。
如果需要,可以从此处更改刷新间隔的默认值。
注意
仅当选择了 sitemap 爬网选项时,才支持增量爬网。
疑难解答
发布连接后,可以在管理中心的“数据源”选项卡下查看状态。 若要了解如何进行更新和删除,请参阅 管理连接器。 可 在此处找到常见问题的故障排除步骤。
如果遇到问题或想要提供反馈,请联系 Microsoft Graph |支持。