使用跟踪器扫描 (预览版) 在已注册网站上创建和运行扫描
注册网站并创建跟踪器类别后,即可扫描网站。 扫描最多可识别网站上的四种 跟踪器技术 :Cookie、指纹、本地存储对象和 Web 信标。
可以在一个网站上设置多个扫描,以查找不同的参数,例如要从中扫描网站的区域。 若要创建、编辑或运行扫描,请从要扫描的已注册网站的详细信息页开始。
设置扫描
若要在网站上设置扫描,请执行以下步骤:
在 “已注册的网站 ”页上,选择网站名称以打开其详细信息页。
在网站的详细信息页上,选择“ 新建符合性扫描”。
在“ 扫描 浮出控件”窗格中,输入 符合性扫描名称。 创建扫描后,以后无法更改其名称,即使可以 编辑扫描本身的参数也是如此。
输入扫描的简要说明。
在 “扫描区域”中,选择要从中运行扫描的区域,以模拟特定区域中网站的行为。 例如,如果你的同意横幅仅在需要的区域打开,则可以在最能反映范围内法规区域的扫描区域中运行扫描。 当前支持的区域是: EastUS2、 英国南部和 西欧 (详细了解 区域可用性) 。
在 “爬网定义”中,从下拉菜单选择要运行的扫描级别:
仅注册的 URL:仅扫描已注册域的第一页。
爬网 (已注册的 URL + 两个页面级别) :扫描已注册的 URL 和域下的两个网页级别;例如,
contoso.com
以及具有contoso.com/something
或contoso.com/something/something
的任何页面。 选择此选项时,可以选择将扫描限制为一定数量的页。 扫描时间取决于网站中的内部链接数。站点地图:如果网站有站点地图,请选择此选项以扫描站点地图中标识的所有页面。 提供具有完整语法的站点地图 URL;例如 。
https://www.contoso.com/store/collections.xml
站点地图内容大小不应超过 3 MB。 扫描程序扫描站点地图中标识的所有页面。 如果站点地图包含许多链接,则可能会导致扫描时间和成本增加。
选择“爬网”或“站点地图”时,限制扫描显示。 定义要扫描的最大页数。 增加页面可能会导致扫描时间更长,成本也各不相同。 扫描时间可能会随着页数的增加而增加。
如果选择“爬网”或“站点地图”,将显示“显示扫描时间估计”。 选择此选项可查看已扫描页和未扫描页的估计值。 这是使用 “管理 URL” 功能的先决条件,该功能允许从后续扫描中排除特定 URL,以节省时间并帮助扫描更高效地运行。 然后选择“ 继续”。
“包括身份验证或网站交互的访问步骤”是可选的,如果需要,应跳过,因为它指示工具在扫描前执行一个或多个操作。 如果你的网站 不需要 扫描来绕过基本身份验证或模拟特定的访问者单击或填充交互,请选择“ 继续 ”,而不选择 访问类型。
注意
扫描 经过身份验证的站点还有其他步骤。 建议稍后返回到此步骤,完成初始扫描创建过程,以确保扫描设置为按预期运行。
在 “跟踪器技术 & 标记”中,选择要跨网站扫描的项目。 在 扫描定义说明中获取详细信息。 然后选择“ 继续”。
在 “设置扫描触发器”中,将扫描的频率设置为“ 定期 ”或“ 一次”。 在 扫描触发器说明中获取详细信息。 然后选择“ 继续”。
在 “查看扫描”中,查看扫描设置。 然后选择“ 保存并运行”,其中提供了一个选项,用于选择“ 保存” 以仅保存扫描,或 选择“保存并运行”,这将运行第一次扫描。
查看扫描详细信息和状态
创建或编辑完扫描后,选择“保存并运行”后,扫描将首次运行,即使在扫描触发器阶段设置了重复时间也是如此。
在已注册网站的详细信息页上,其所有扫描都列在“符合性扫描”选项卡上。扫描运行时,选择“刷新”以查看其当前状态:
已排队:在开始合规性扫描之前,扫描正在等待其他进程完成。
正在进行:扫描正在运行,并将继续,直到完成或发生错误。
已完成:扫描已成功完成,可查看结果。
已取消:扫描已被用户取消,并且不会在运行时之外显示任何结果(如果有)。
失败,详细信息:运行时出错;可以通过选择“详细信息”找到 更多信息。
可以通过在扫描的详细信息页上选择“ 立即运行扫描” ,随时启动扫描。
扫描详细信息页
若要查找扫描的详细信息页,请转到 “已注册的网站 ”页,并从列表中选择网站名称。 在已注册网站的详细信息页上,选择页面左侧导航栏中的 “符合性扫描 ”,然后选择扫描名称以打开其详细信息页。 可在此处编辑扫描、查看和管理 URL、查看扫描历史记录和结果以及查看跟踪器和标记。
扫描经过身份验证的网站
如果要扫描的网站是需要凭据和登录过程的经过身份验证的站点,则可以在扫描设置过程中提供凭据,以便扫描可以运行。 如果未提供凭据,则扫描无法绕过登录门户,并且可能无法访问和扫描需要访问者交互的网页。
注意
仅支持基本身份验证。 多重身份验证或基于认知的技术不可行,因为扫描程序需要在扫描运行之前执行步骤。
跟踪器扫描可以扫描两种访问类型:
身份验证:使用 Azure 密钥保管库中存储的凭据绕过用户名和密码基本身份验证的扫描功能。
网站交互:一种扫描功能,用于在扫描跟踪器和合规性对象之前模拟特定访问者单击或填充交互。
重要
若要运行 身份验证 扫描,组织的管理员必须先在 Azure 密钥保管库 与用于合规性扫描的 Microsoft Purview 帐户之间建立连接。 在设置身份验证扫描之前,请访问 Microsoft Purview 中用于源身份验证的凭据,创建密钥保管库并将其连接到你的帐户。
身份验证扫描步骤
如果要创建新的扫描,请在“设置扫描) ”步骤 9 中选择“包括身份验证或网站交互的访问步骤”选项 (使用以下说明。 如果已创建扫描,请打开已注册网站的详细信息页。 在 “符合性扫描 ”选项卡上,选择扫描,然后选择 “编辑扫描”。 然后按照以下步骤操作:
选择“ 继续 ”以转到第一页。
在 “包括身份验证或网站交互的访问步骤 ”页上,对于 “访问类型”,选择“ 身份验证”。
对于 “凭据”,请选择用于扫描的凭据。 下拉列表选项来自 密钥保管库。 如果未看到要使用的凭据,请确保它们已添加到密钥保管库并连接到组织的 Microsoft Purview 帐户。
通过选择“ 添加步骤”,创建多个访问步骤,以复制网站访问者的活动以绕过基本身份验证。 此过程涉及收集各种 Web 组件的位置路径。 这可以手动执行,也可以使用 Microsoft Edge 扩展生成用于上传的 JSON 文件
在步骤中,对于“操作类型”,选择“单击”、“选择”、“选中”或“Enter”。
Enter 必须与“自定义”、“用户名”或“密码”相关联。
如果选择了 “用户名” 或 “密码” ,则其 “字段 ”值会自动填充。
示例设置:每个步骤要求用户提供位置路径:
- 自定义 - 登录按钮
- 用户名 – 输入
- 密码 - 输入
- 自定义 - 提交登录名
对于 “对象名称”,可以输入字段的名称作为引用。
捕获并在步骤中引用的字段提供位置路径或 XPath。 获取 有关收集位置路径的说明。
对流的每个步骤重复此操作。
完成后,确认仅包含所需步骤,删除所有空白步骤,然后选择“ 继续”。
在 “设置扫描定义 ”页上继续生成扫描。
网站交互扫描步骤
如果要创建新的扫描,请在“设置扫描) ”步骤 9 中选择“包括身份验证或网站交互的访问步骤”选项 (使用以下说明。 如果已创建扫描,请打开已注册网站的详细信息页。 在 “符合性扫描 ”选项卡上,选择扫描,然后选择 “编辑扫描”。 然后按照以下步骤操作:
选择“ 继续 ”以转到第一页。
在 “包括身份验证或网站交互的访问步骤 ”页上,对于 “身份验证类型”,选择“ 网站交互”。
捕获并提供步骤中引用的字段的完整位置路径(即 XPath)。 可以手动执行此操作,也可以使用 Microsoft Edge 扩展生成用于上传的 JSON 文件。 访问 有关收集位置路径的说明,并针对流的每个步骤重复操作。
在 “设置访问步骤的方法”中,选择 “手动添加 XPaths ”或“ 上传 XPaths 文件”。
如果选择上传文件,请将其添加到 “上传 XPaths 文件 ”字段中。
完成后,确认仅包含所需步骤,删除所有空白步骤,然后选择“ 继续”。
在“扫描定义”页继续生成扫描。
扫描定义
扫描创建过程中的“扫描 定义 ”页是告知扫描在每个网页上查找的内容的位置。 可能的元素包括跟踪器、标记和需要确认的各种符合性对象。
在 “跟踪器技术”中,选择要扫描的跟踪器旁边的框,以及是否捕获关联的标记和关系。 这些跟踪器和标记从网站部署到访问者的浏览器或设备。
跟踪
Cookie:扫描加载要扫描的网页时部署的第一方和第三方 Cookie。 鉴于 Cookie 的属性,这些属性始终被视为跟踪器。
指纹:扫描指纹;尽管某些网站使用指纹进行标准网站 UX 配置,例如屏幕大小和首选语言。 在某些情况下,指纹可用作跟踪技术,以与其他跟踪器或数据一起构建用户配置文件。 在满足所有各种条件时,指纹作为扫描的一部分进行捕获;这些组件有可能是非跟踪 Web 组件。
本地存储对象 (LSO) :在满足所有各种条件时作为扫描的一部分进行捕获。 LSO 有时可以是非跟踪 Web 组件。
Web 信标 (1x1 像素) :在满足所有各种条件时,作为扫描的一部分进行捕获。 Web 信标有时可以是非跟踪 Web 组件。
标记和关系
“ 捕获所有选定跟踪器的标记和关系 ”选项捕获前面的标记,允许用户在扫描结果中查看跟踪器关系。 跟踪器需要 HTML 标记 (脚本、 iFrame 或 图像) ,以便在网站访问者的设备上部署。
跟踪器关系:在列表或图形中查看跟踪器与标记之间的关系的功能。 单个标记可以部署多个跟踪器。 跟踪器关系在每次扫描的基础上捕获。
合规性对象
合规性对象 显示为常见网站合规性对象的磁贴,例如 同意横幅 和面向外部的 隐私声明。 选择这些元素有助于验证合规性对象是否存在。
可以添加自己的合规性对象;请务必仔细输入名称,如报表中所示。 选择要扫描的一个或多个符合性对象,并在每个对象的磁贴中,在文本字段中输入其位置路径。 收集位置路径可以手动执行,也可以使用 Microsoft Edge 扩展生成 JSON 文件进行上传。 获取 有关收集位置路径的说明。
重要
请务必检查要包含在扫描中的每个合规性对象的磁贴上的框。
扫描触发器
扫描创建过程中的“ 扫描定义 ”页是将扫描频率设置为运行一次或定期运行的位置。 此设置允许你设置扫描和监视频率,以查找任何潜在的合规性问题。
如果选择“ 定期”,则会看到用于在每周或每月节奏中选择特定天数的选项。 选择一个时间,然后选择开始和结束日期。 完成扫描设置过程后,第一次扫描将运行,然后所选的定期选项将生效。
完成后,选择“ 继续 ”以转到审阅步骤,然后保存并运行它。
收集位置路径
Microsoft Priva:扫描设置工具是一种浏览器扩展,可安装以帮助促进位置路径或 XPaths 的收集。 也可以按照以下步骤手动收集位置路径,而不是使用浏览器范围。
手动收集位置路径
在网页上的任何位置上,右键单击并选择“ 检查 ”以打开 DevTools。
DevTools 区域随即出现,并显示 “元素” 页,突出显示已检查的 Web 元素。
右键单击 突出显示的 Web 元素,选择“ 复制”,然后选择“ 复制 XPath”。
返回跟踪器扫描中的扫描设置页,并将复制的 XPath 粘贴到“位置路径”字段中。
安装浏览器扩展
按照以下步骤安装Microsoft Priva:扫描设置工具浏览器扩展:
打开 Microsoft Edge 浏览器并导航到: https://microsoftedge.microsoft.com/addons/detail/bldbcilhcjhoookkgcbmglgjdlbjihgo。
选择 “获取”,然后选择“ 添加扩展”。
在浏览器地址栏右侧,选择“ 扩展 ”图标。
在“Microsoft Priva:扫描设置工具扩展名称”旁边,选择隐藏的眼睛图标,该图标将在浏览器工具栏上显示扩展的图标。
使用扩展收集位置路径
打开新的 Microsoft Edge 窗口,并输入要为其创建扫描的 URL。 该窗口不能是 InPrivate 窗口。
选择浏览器地址栏旁边的Microsoft Priva:扫描设置工具图标,然后选择收集模式:
收集访问页面的步骤:在 身份验证 或 网站交互 步骤设置过程中使用此步骤。
收集符合性对象的路径:用于在 扫描定义 设置期间添加符合性对象。
将鼠标悬停在要捕获的网站上的 对象上。 该区域上方会显示底纹,其下方会显示一个窗口,其中包含 “收集此位置路径 ”按钮。
慢慢向下移动光标,选择“ 收集此位置路径”。 顶部会显示一条确认消息,指出已收集位置路径。 确认消息中的“ 审阅 ”按钮可让你查看收集的 XPath,并提供 “确认 & 继续”或 “放弃位置 路径”选项,以便可以重试。
重复步骤 3 以捕获所需的所有 XPath。 收集 XPath 时,分机图标上的数字指示收集的数字。
收集完 XPaths 后,选择扩展图标,然后选择“下载在单个文件中收集的 XPath”。 XPath 是在 JSON 文件中下载的。
在以下任一身份验证步骤中导航回跟踪器扫描的扫描设置:网站交互步骤或合规性对象定义。 选择“ 上传位置路径文件”选项。 选择标题为 “WebInteractions# ”或 “ComplianceObjects#”的下载文件,然后从文件资源管理器中选择“ 打开 ”。
你将看到合规性对象或收集的访问步骤。 进行任何修改,然后选择“ 完成后继续 ”。
管理 URL
运行第一次扫描后,可以从后续扫描中排除特定 URL,以节省时间并帮助扫描更高效地运行。 如果在扫描设置过程中选择了 “显示扫描时间估计 ”,则此选项可用。 例如,如果要扫描产品页面 (,例如 www.contoso.com/products
,) 具有大量子页的单个产品 () www.contoso.com/products/widgets
,则可以排除产品页面,以便将来的扫描不会继续在其所有子页上运行。
排除 URL 还有助于避免超出创建扫描时设置的扫描限制,从而可能缺少要扫描的其他重要页面。
注意
所有扫描结果都保留在以前的扫描的审核跟踪中,因此,即使排除了将来扫描的 URL,在排除 URL 之前,也会保留其扫描结果的记录。
从扫描中排除 URL
在扫描详细信息页上的 “URL 排除列表 ”选项卡上查看和管理排除的 URL。 若要删除 URL 并管理扫描的 URL 列表,请执行以下步骤:
转到已注册网站的详细信息页,然后选择左侧导航上的“ 符合性扫描 ”选项卡。
选择扫描名称以打开其详细信息页。
转到 “URL 排除列表 ”选项卡,然后选择“ 管理 URL” ,打开“ 管理 URL” 浮出控件窗格。
浮出控件窗格列出了首次扫描网站时检测到的所有 URL。 选中要排除的 URL 旁边的框。 要注意的详细信息:
选择“ 排除 ”将排除所有将来扫描的子页和基础页。
列出的每个 URL 都显示扫描状态 (扫描或未扫描) 、从该 URL 的子页总数中扫描的页数,以及估计的扫描时间。 标记要排除的 URL 时, “估计扫描时间总计 ”和“ 估计页总数” 磁贴将更新以反映建议的排除项。
浮出控件窗格顶部的 “页面限制 ”字段允许修改创建扫描时设置的页面限制。 如果在此处调整页面限制,则完成此过程后,无需重新进入扫描来对其进行编辑。
无法排除已注册的网站 URL。
完成后,选择“ 保存”。
浮出控件窗格将关闭,排除的 URL 显示在 URL 排除列表 页上。