你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

选择数据引入工具

为历史数据选择目标平台后,下一步是选择用于传输数据的工具。

本文介绍了一组用于将历史数据传输到所选目标平台的不同工具。 下表列出了可用于每个目标平台的工具,以及可帮助你完成引入过程的常规工具。

Azure Monitor 基本日志/存档 Azure 数据资源管理器 Azure Blob 存储 常规工具
Azure Monitor 自定义日志引入工具
直接 API
LightIngest
Logstash
Azure 数据工厂或 Azure Synapse
AzCopy
Azure Data Box
SIEM 数据迁移加速器

Azure Monitor 基本日志/存档

在将数据引入 Azure Monitor 基本日志或存档之前,为了降低引入价格,请确保将要写入的表配置为基本日志。 查看用于 Azure Monitor 基本日志的 Azure Monitor 自定义日志引入工具direct API 方法。

Azure Monitor 自定义日志引入工具

自定义日志引入工具是一个 PowerShell 脚本,可将自定义数据发送到 Azure Monitor 日志工作区。 可以将脚本指向所有日志文件所在的文件夹,脚本会将文件推送到该文件夹。 该脚本接受 CSV 或 JSON 格式的日志文件。

直接 API

使用此选项,可以将自定义日志引入 Azure Monitor 日志。 可以通过使用 REST API 的 PowerShell 脚本引入日志。 或者,可以使用任何其他编程语言来执行引入,并且可以使用其他 Azure 服务来对计算层进行抽象化,例如 Azure Functions 或 Azure 逻辑应用。

Azure 数据资源管理器

可以通过多种方式将数据引入 Azure 数据资源管理器 (ADX)。

ADX 接受的引入方法基于不同的组件:

  • 适用于不同语言的 SDK,例如 .NET、Go、Python、Java、NodeJS 和 API。
  • 托管管道,例如事件网格或存储 Blob 事件中心,以及 Azure 数据工厂。
  • 连接器或插件,例如 Logstash、Kafka、Power Automate 和 Apache Spark。

查看 LightIngestLogstash,这两种方法更适合数据迁移用例。

LightIngest

ADX 专门为历史数据迁移用例开发了 LightIngest 实用工具。 可以使用 LightIngest 将数据从本地文件系统或 Azure Blob 存储复制到 ADX。

以下是 LightIngest 的一些主要优势和功能:

  • 引入持续时间没有时间限制,因此想要引入大量数据时,LightIngest 最有用。
  • 想要根据记录的创建时间而不是引入时间来查询记录时,LightIngest 很有用。
  • 无需为 LightIngest 处理复杂的大小调整问题,因为该实用工具不执行实际的复制。 LightIngest 告知 ADX 需要复制的 blob,然后 ADX 复制数据。

如果选择 LightIngest,请查看这些提示和最佳做法。

  • 若要加快迁移速度并降低成本,请增加 ADX 群集的大小,以创建更多可用节点进行引入操作。 迁移结束后减小大小。
  • 若要在将数据引入 ADX 后进行更高效的查询,请确保复制的数据使用原始事件的时间戳。 数据不应使用自数据复制到 ADX 起的时间戳。 将时间戳作为文件名的路径提供给 LightIngest,作为 CreationTime 属性的一部分。
  • 如果路径或文件名不包含时间戳,你仍可以指示 ADX 使用分区策略来组织数据。

Logstash

Logstash 是一个开源服务器端数据处理管道,可以同时从多个源引入数据、转换数据,然后将数据发送到你偏好的“储存”中。 详细了解如何将数据从 Logstash 引入 Azure 数据资源管理器。 LogStash 可在 Windows、Linux 和 macOS 计算机上运行。

若要优化性能,请根据每秒事件数配置 Logstash 层大小。 建议尽可能使用 LightIngest,因为 LightIngest 依赖于 ADX 群集计算来执行复制。

Azure Blob 存储

可以通过多种方式将数据引入 Azure Blob 存储。

查看 Azure 数据工厂 (ADF) 和 Azure Synapse 方法,这些方法更适合数据迁移用例。

Azure 数据工厂或 Azure Synapse

在 Azure 数据工厂 (ADF) 或 Synapse 管道中使用复制活动:

  1. 创建和配置自承载集成运行时。 该组件负责从本地主机复制数据。
  2. 创建用于源数据存储(文件系统)和接收器数据存储(blob 存储)的链接服务。
  3. 若要复制数据,请使用复制数据工具。 或者,可以使用 PowerShell、Azure 门户、.NET SDK 等方法。

AzCopy

AzCopy 是一个简单的命令行实用工具,可将文件复制到存储帐户或从存储帐户复制文件。 AzCopy 适用于 Windows、Linux 和 macOS。 了解如何使用 AzCopy 将本地数据复制到 Azure Blob 存储

还可以使用这些选项来复制数据:

Azure Data Box

在源 SIEM 与 Azure 的连接不佳的情况下,使用本部分中介绍的工具引入数据可能会很慢,甚至可能无法完成。 若要解决此问题,可以使用 Azure Data Box 将数据从客户的数据中心本地复制到设备中,然后将该设备寄送到 Azure 数据中心。 虽然 Azure Data Box 不能替代 AzCopy 或 LightIngest,但可以使用此工具来加速客户数据中心和 Azure 之间的数据传输。

Azure Data Box 提供三种不同的 SKU,具体取决于要迁移的数据量:

完成迁移后,数据将在某个 Azure 订阅下的存储帐户中提供。 然后,可以使用 AzCopyLightIngestADF 从存储帐户引入数据。

SIEM 数据迁移加速器

除了选择引入工具外,团队还需要投入时间来设置基础环境。 若要简化此过程,可以使用 SIEM 数据迁移加速器,该加速器会自动执行以下任务:

  • 部署将用于将日志从源平台移动到目标平台的 Windows 虚拟机
  • 将以下工具下载并提取到虚拟机桌面:
  • 部署将托管你的历史日志的目标平台:
    • Azure 存储帐户(Azure Blob 存储)
    • Azure 数据资源管理器群集和数据库
    • Azure Monitor 日志工作区(基本日志;已启用 Microsoft Sentinel)

使用 SIEM 数据迁移加速器:

  1. SIEM 数据迁移加速器页中,单击页面底部的“部署到 Azure”,然后进行身份验证。
  2. 选择“基本”,选择你的资源组和位置,然后选择“下一步”。
  3. 选择“迁移 VM”,然后执行以下操作:
    • 键入虚拟机名称、用户名和密码。
    • 选择现有 vNet 或为虚拟机连接创建新的 vNet。
    • 选择虚拟机大小。
  4. 选择“目标平台”,然后执行以下其中一个操作:
    • 跳过此步骤。
    • 提供 ADX 群集和数据库名称、SKU 和节点数。
    • 对于 Azure Blob 存储帐户,请选择现有帐户。 如果没有帐户,请提供新的帐户名称、类型和冗余。
    • 对于 Azure Monitor 日志,请键入新工作区的名称。

后续步骤

本文介绍了如何选择一种工具来将数据引入到目标平台中。