在 SharePoint Server 中管理爬网规则

适用于:yes-img-132013 yes-img-162016 yes-img-192019 yes-img-seSubscription Edition no-img-sopSharePoint in Microsoft 365

您可以添加爬网规则以在对内容进行爬网时包含或排除特定路径。 在包含某个路径时,可以提供备用帐户凭据以对该路径进行爬网。 除创建或编辑爬网规则外,您还可以测试、删除或重新排序现有爬网规则。

使用爬网规则执行以下操作:

  • 阻止对网站上的内容进行爬网。 例如,如果创建了要对“”http://www.contoso.com进行爬网的内容源,但不希望搜索系统对子目录“”http://www.contoso.com/downloads中的内容进行爬网,请创建一个爬网规则来排除该子目录中的内容。

  • 否则,将对网站上排除的内容进行爬网。 例如,如果从“”http://www.contoso.com/downloads中排除了内容进行爬网,但希望对子目录“”http://www.contoso.com/downloads/content中的内容进行爬网,请创建一个爬网规则以包含该子目录中的内容。

  • 指定身份验证凭据。 如果要爬网的网站需要的凭据与默认内容访问帐户所需的凭据不同,请创建一个爬网规则来指定身份验证凭据。

可以将星号 (*) 用作爬网规则中的通配符。 例如,若要从“”http://www.contoso.com上的爬网中排除 JPEG 文件,请创建一个爬网规则来排除“http://www.contoso.com/*.jpg”。

爬网规则的顺序很重要,因为第一个与一组特定内容匹配的规则是应用的规则。

创建或编辑爬网规则

  1. 确认执行此过程的用户帐户是 Search Service 应用程序的管理员。

  2. 在管理中心的"应用程序管理"部分,单击"管理服务应用程序"。

  3. 在"管理服务应用程序"页上的服务应用程序列表中,单击"Search Service 应用程序"。

  4. 在"搜索管理"页上的"爬网"部分,单击"爬网规则"。 即会显示"管理爬网规则"页。

  5. 若要创建新的爬网规则,请单击“新建爬网规则”。 若要编辑现有爬网规则,请在爬网规则列表中,指向要编辑的爬网规则的名称,单击出现的箭头,然后单击“编辑”

  6. 在“添加爬网规则”页上的“路径”部分:

  • 在“路径”框中,键入将应用爬网规则的路径。 可以在路径中使用标准通配符。

  • 若要使用正则表达式而非通配符,请选择"与此规则匹配时使用正则表达式语法"。

  1. 在"爬网配置"部分,选择下列选项之一:
  • 排除此路径中的所有项目。 如果要从爬网中排除指定路径中的所有项目,请选择此选项。 如果选择此选项,可以通过选择“ 排除包含问号 ( 的复杂 URL (URL”来 优化排除,) ) 排除包含使用问号 ( ) 表示法的参数的 URL。

  • 包含此路径中的所有项目。 如果要对此路径中的所有项目进行爬网,请选择此选项。 如果选择此选项,可以通过选择以下选项的任意组合来进一步优化包含:

    使用该 URL 上的链接,而不对该 URL 本身进行爬网。 如果要对 URL 中包含的链接进行爬网但不对起始 URL 本身进行爬网,请选择此选项。

    对复杂 URL (包含问号(?)的 URL)进行爬网。 如果要对包含参数(参数使用问号 (?) 表示法)的 URL 进行爬网,请选择此选项。

    将 SharePoint Server 内容爬网为 http 页面。 通常,SharePoint Server 网站是使用特殊协议进行爬网的。 如果希望 SharePoint Server 网站改为以 HTTP 页面的形式进行爬网,请选择此选项。 使用 HTTP 协议对内容进行爬网时,不会存储项目权限。

  1. 在“指定验证”部分,执行下列操作之一:

    注意

    除非在"爬网配置"部分选择"包含此路径中的所有项目"选项,否则此选项不可用。

  • 若要使用默认内容访问帐户,请选择"使用默认内容访问帐户"。

  • 如果要使用不同的帐户,请选择“ 指定其他内容访问帐户 ”,然后在“ 帐户 ”框中,键入可以访问此爬网规则中定义的路径的用户帐户名称。 接下来,在 “密码 ”和“ 确认密码” 框中,键入此用户帐户的密码。 若要阻止使用基本身份验证,请选中“不允许基本身份验证”复选框。 服务器会尝试使用 NTLM 身份验证。 如果 NTLM 身份验证失败,那么除非选中“不允许基本身份验证”复选框,否则服务器会尝试使用基本身份验证。

  • 若要将客户端证书用于身份验证,请选择“指定客户端证书”,展开“证书”菜单,然后选择一个证书。

  • 若要将窗体凭据用于身份验证,请选择“指定窗体凭据”,在“窗体 URL”框中键入窗体 URL(接受凭据信息的页面的位置),然后单击“输入凭据”。 当远程服务器的登录提示在新窗口中打开时,请键入要用于登录的窗体凭据。 如果登录成功,系统将会提示您。 如果登录成功,则进行身份验证所需的凭据将存储在远程网站上。

  • 若要使用 Cookie,请选择“ 使用 Cookie 进行爬网”,然后选择“ 从 URL 获取 Cookie ”以从网站或服务器获取 Cookie。 或者,选择“ 指定用于爬网的 Cookie”以从本地文件系统或文件共享导入 Cookie。 You can optionally specify error pages in the Error pages (semi-colon delimited) box.

  • 若要允许匿名访问,请选择"匿名访问"。

  1. 单击“确定”

对 URL 测试爬网规则

  1. 确认执行此过程的用户帐户是 Search Service 应用程序的管理员。

  2. 在管理中心的"应用程序管理"部分,单击"管理服务应用程序"。

  3. 在"管理服务应用程序"页上的服务应用程序列表中,单击"Search Service 应用程序"。

  4. 在"搜索管理"页上的"爬网"部分,单击"爬网规则"。

  5. 在"管理爬网规则"页上的"键入某个 URL,然后单击'测试'以了解其是否符合规则"框中,键入要测试的 URL。

  6. 单击“测试”。 测试结果显示在 “键入 URL”下方,并单击“测试”,以确定它是否与规则框匹配

删除爬网规则

  1. 确认执行此过程的用户帐户是 Search Service 应用程序的管理员。

  2. 在管理中心的"应用程序管理"部分,单击"管理服务应用程序"。

  3. 在"管理服务应用程序"页上的服务应用程序列表中,单击"Search Service 应用程序"。

  4. 在"搜索管理"页上的"爬网"部分,单击"爬网规则"。

  5. 在"管理爬网规则"页上的爬网规则列表中,指向要删除的爬网规则的名称,单击出现的箭头,然后单击"删除"。

  6. 单击“确定”以确认要删除此爬网规则。

重新排序爬网规则

  1. 确认执行此过程的用户帐户是 Search Service 应用程序的管理员。

  2. 在管理中心的"应用程序管理"部分,单击"管理服务应用程序"。

  3. 在"管理服务应用程序"页上的服务应用程序列表中,单击"Search Service 应用程序"。

  4. 在"搜索管理"页上的"爬网"部分,单击"爬网规则"。

  5. 在"管理爬网规则"页上的爬网规则列表的"顺序"栏中,指定规则要占据的爬网规则位置。 其他值将相应移位。