在 SharePoint Server 中管理爬网规则
适用于:2013 2016 2019 Subscription Edition SharePoint in Microsoft 365
您可以添加爬网规则以在对内容进行爬网时包含或排除特定路径。 在包含某个路径时,可以提供备用帐户凭据以对该路径进行爬网。 除创建或编辑爬网规则外,您还可以测试、删除或重新排序现有爬网规则。
使用爬网规则执行以下操作:
阻止对网站上的内容进行爬网。 例如,如果创建了要对“”http://www.contoso.com进行爬网的内容源,但不希望搜索系统对子目录“”http://www.contoso.com/downloads中的内容进行爬网,请创建一个爬网规则来排除该子目录中的内容。
否则,将对网站上排除的内容进行爬网。 例如,如果从“”http://www.contoso.com/downloads中排除了内容进行爬网,但希望对子目录“”http://www.contoso.com/downloads/content中的内容进行爬网,请创建一个爬网规则以包含该子目录中的内容。
指定身份验证凭据。 如果要爬网的网站需要的凭据与默认内容访问帐户所需的凭据不同,请创建一个爬网规则来指定身份验证凭据。
可以将星号 (*) 用作爬网规则中的通配符。 例如,若要从“”http://www.contoso.com上的爬网中排除 JPEG 文件,请创建一个爬网规则来排除“http://www.contoso.com/*.jpg”。
爬网规则的顺序很重要,因为第一个与一组特定内容匹配的规则是应用的规则。
创建或编辑爬网规则
确认执行此过程的用户帐户是 Search Service 应用程序的管理员。
在管理中心的"应用程序管理"部分,单击"管理服务应用程序"。
在"管理服务应用程序"页上的服务应用程序列表中,单击"Search Service 应用程序"。
在"搜索管理"页上的"爬网"部分,单击"爬网规则"。 即会显示"管理爬网规则"页。
若要创建新的爬网规则,请单击“新建爬网规则”。 若要编辑现有爬网规则,请在爬网规则列表中,指向要编辑的爬网规则的名称,单击出现的箭头,然后单击“编辑”。
在“添加爬网规则”页上的“路径”部分:
在“路径”框中,键入将应用爬网规则的路径。 可以在路径中使用标准通配符。
若要使用正则表达式而非通配符,请选择"与此规则匹配时使用正则表达式语法"。
- 在"爬网配置"部分,选择下列选项之一:
排除此路径中的所有项目。 如果要从爬网中排除指定路径中的所有项目,请选择此选项。 如果选择此选项,可以通过选择“ 排除包含问号 ( 的复杂 URL (URL”来 优化排除,) ) 排除包含使用问号 ( ) 表示法的参数的 URL。
包含此路径中的所有项目。 如果要对此路径中的所有项目进行爬网,请选择此选项。 如果选择此选项,可以通过选择以下选项的任意组合来进一步优化包含:
使用该 URL 上的链接,而不对该 URL 本身进行爬网。 如果要对 URL 中包含的链接进行爬网但不对起始 URL 本身进行爬网,请选择此选项。
对复杂 URL (包含问号(?)的 URL)进行爬网。 如果要对包含参数(参数使用问号 (?) 表示法)的 URL 进行爬网,请选择此选项。
将 SharePoint Server 内容爬网为 http 页面。 通常,SharePoint Server 网站是使用特殊协议进行爬网的。 如果希望 SharePoint Server 网站改为以 HTTP 页面的形式进行爬网,请选择此选项。 使用 HTTP 协议对内容进行爬网时,不会存储项目权限。
在“指定验证”部分,执行下列操作之一:
注意
除非在"爬网配置"部分选择"包含此路径中的所有项目"选项,否则此选项不可用。
若要使用默认内容访问帐户,请选择"使用默认内容访问帐户"。
如果要使用不同的帐户,请选择“ 指定其他内容访问帐户 ”,然后在“ 帐户 ”框中,键入可以访问此爬网规则中定义的路径的用户帐户名称。 接下来,在 “密码 ”和“ 确认密码” 框中,键入此用户帐户的密码。 若要阻止使用基本身份验证,请选中“不允许基本身份验证”复选框。 服务器会尝试使用 NTLM 身份验证。 如果 NTLM 身份验证失败,那么除非选中“不允许基本身份验证”复选框,否则服务器会尝试使用基本身份验证。
若要将客户端证书用于身份验证,请选择“指定客户端证书”,展开“证书”菜单,然后选择一个证书。
若要将窗体凭据用于身份验证,请选择“指定窗体凭据”,在“窗体 URL”框中键入窗体 URL(接受凭据信息的页面的位置),然后单击“输入凭据”。 当远程服务器的登录提示在新窗口中打开时,请键入要用于登录的窗体凭据。 如果登录成功,系统将会提示您。 如果登录成功,则进行身份验证所需的凭据将存储在远程网站上。
若要使用 Cookie,请选择“ 使用 Cookie 进行爬网”,然后选择“ 从 URL 获取 Cookie ”以从网站或服务器获取 Cookie。 或者,选择“ 指定用于爬网的 Cookie”以从本地文件系统或文件共享导入 Cookie。 You can optionally specify error pages in the Error pages (semi-colon delimited) box.
若要允许匿名访问,请选择"匿名访问"。
- 单击“确定”。
对 URL 测试爬网规则
确认执行此过程的用户帐户是 Search Service 应用程序的管理员。
在管理中心的"应用程序管理"部分,单击"管理服务应用程序"。
在"管理服务应用程序"页上的服务应用程序列表中,单击"Search Service 应用程序"。
在"搜索管理"页上的"爬网"部分,单击"爬网规则"。
在"管理爬网规则"页上的"键入某个 URL,然后单击'测试'以了解其是否符合规则"框中,键入要测试的 URL。
单击“测试”。 测试结果显示在 “键入 URL”下方,并单击“测试”,以确定它是否与规则框匹配 。
删除爬网规则
确认执行此过程的用户帐户是 Search Service 应用程序的管理员。
在管理中心的"应用程序管理"部分,单击"管理服务应用程序"。
在"管理服务应用程序"页上的服务应用程序列表中,单击"Search Service 应用程序"。
在"搜索管理"页上的"爬网"部分,单击"爬网规则"。
在"管理爬网规则"页上的爬网规则列表中,指向要删除的爬网规则的名称,单击出现的箭头,然后单击"删除"。
单击“确定”以确认要删除此爬网规则。
重新排序爬网规则
确认执行此过程的用户帐户是 Search Service 应用程序的管理员。
在管理中心的"应用程序管理"部分,单击"管理服务应用程序"。
在"管理服务应用程序"页上的服务应用程序列表中,单击"Search Service 应用程序"。
在"搜索管理"页上的"爬网"部分,单击"爬网规则"。
在"管理爬网规则"页上的爬网规则列表的"顺序"栏中,指定规则要占据的爬网规则位置。 其他值将相应移位。