向 eventstream 添加湖屋目的地

本文介绍如何在 Microsoft Fabric 事件流中向 Eventstream 添加湖屋作为目标。 为了优化流式传输性能和实时查询,请考虑通过将 Eventhouse 目标添加到 Eventstream来将数据流式传输到 Eventhouse,然后启用 Eventhouse OneLake 可用性

注意

如果要使用预览版中的增强功能,请选择顶部的“增强功能”。 否则,请选择“标准功能”。 有关预览版中增强功能的信息,请参阅 Fabric 事件流简介

重要

在湖屋目标表中写入数据时,存在“架构强制措施”。 对表的所有新写入必须在写入时与目标表的架构兼容,以确保数据质量。

将输出写入新的增量表时,将基于第一条记录创建表架构。 输出数据的所有记录都投影到现有表的架构。

如果传入数据具有不在现有表架构中的列,则写入表的数据中不包括额外的列。 类似地,如果传入的数据缺少现有表架构中的列,则在写入表时缺失列的值会设置为 null。

先决条件

  • 使用“参与者”或更高级别权限访问事件流所在之 Fabric“高级工作区”
  • 使用“参与者”或更高级别权限访问湖屋所在之“高级工作区”

注意

一个事件流的源和目标的最大数量为 11

添加湖屋作为目标

若要将 Lakehouse 目标添加到默认或派生事件流,请执行以下步骤。

  1. 在事件流的“编辑模式”下,选择功能区上的“添加目标”,然后从下拉列表中选择 Lakehouse

    突出显示了“Lakehouse”的“添加目标”下拉列表的屏幕截图。

  2. 将湖屋节点连接到流节点或运算符。

  3. Lakehouse 配置屏幕上,补充以下信息:

    1. 输入目标名称。
    2. 选择包含湖屋的“工作区”
    3. 从指定的工作区中选择现有的 Lakehouse
    4. 选择现有“增量表”或创建一个新表来接收数据。
    5. 选择发送到湖屋的“输入数据格式”。 支持的数据格式为 JSON、Avro 和 CSV(包含标头)。

    Lakehouse 配置屏幕顶部的屏幕截图。

  4. 选择“高级”。

  5. 湖屋目的地有两种引入模式可用。 根据应用场景,配置这些模式来优化 Fabric 事件流写入湖屋的方式。

    • “最小行数”是湖屋在单个文件中引入的最小行数。 每个文件的最小行数为 1 行,最大行数为 200 万行。 最小行数越小,湖屋在引入期间创建的文件就越多。

    • “最大持续时间”是湖屋引入单个文件所需的最大持续时间。 最小时间为 1 分钟,最大时间为 2 小时。 持续时间越长,引入文件的行数就越多。

    Lakehouse 配置屏幕的“高级”部分的屏幕截图。

  6. 选择“保存”。

  7. 若要实现新添加的湖屋目标,请选择“发布”

    “编辑”模式中流和湖屋目标的屏幕截图,其中突出显示了“发布”按钮。

完成这些步骤后,湖屋目标可用于“实时视图”中的可视化效果。 在“详细信息”窗格中,可以选择“优化笔记本中的表”快捷方式以在笔记本中启动 Apache Spark 作业,该作业将合并目标湖屋表中的小型流式处理文件。

实时视图中湖屋目标和表优化按钮的屏幕截图。

若要了解如何向 eventstream 添加其他目的地,请参阅以下文章:

先决条件

开始之前,你必须满足以下先决条件:

  • 获取访问具有参与者或更高级别权限的高级工作区的权限,你的事件流放置在此工作区中。
  • 获取对具有参与者或更高权限的高级工作区的访问权限,湖屋位于其中。

注意

一个事件流的源和目标的最大数量为 11

添加湖屋作为目标

如果在工作区中创建了湖屋,请按照以下步骤将该湖屋作为目标添加到事件流:

  1. 在功能区上选择“新建目标”或在主编辑器画布中选择“+”,然后选择“湖屋”。 显示了湖屋目标配置屏幕。

  2. 输入事件流目标的名称,并填写有关湖屋的信息。

    湖屋目标配置屏幕的屏幕截图。

    1. 湖屋:从指定的工作区中选择现有的湖屋。

    2. Delta 表:选择现有 delta 表或创建一个新表来接收数据。

      注意

      将数据写入湖屋表时,会强制实施架构。 这意味着,对表的所有新写入必须在写入时与目标表的架构兼容,以确保数据质量。

      输出数据的所有记录都投影到现有表的架构。 将输出写入新的增量表时,将基于第一条记录创建表架构。 如果与现有表架构相比,传入的数据有额外列,则在写入表时不会包括该额外列。 相反,如果与现有表架构相比,传入的数据缺少某一列,则在写入表时该列的值会设置为 null。

    3. 输入数据格式:为发送到湖屋的数据(输入数据)选择格式。

      注意

      支持的输入事件数据格式为 JSON、Avro 和 CSV(包含标头)。

    4. 事件处理:可以使用事件处理编辑器指定在将数据发送到湖屋之前应如何对其进行处理。 选择“打开事件处理器”以打开事件处理编辑器。 若要详细了解如何使用事件处理器进行实时处理,请参阅使用事件处理编辑器处理事件数据。 用完编辑器后,选择“完成”返回到 Lakehouse 目标配置屏幕。

      显示事件处理器编辑器的屏幕截图。

  3. 湖屋目的地有两种引入模式可用。 选择其中一种模式来根据场景优化 Fabric 事件流功能写入湖屋的方式。

    1. 每个文件的行数 - 湖屋在单个文件中引入的最小行数。 最小行数越小,湖屋在引入期间创建的文件就越多。 最小行数为 1 行。 每个文件的最大行数为 200 万行。

    2. 持续时间 – 湖屋引入单个文件所需的最大持续时间。 持续时间越长,引入文件的行数就越多。 最小持续时间为 1 分钟,最大持续时间为为 2 小时。

      屏幕截图显示引入模式。

  4. 选择“添加”以添加湖屋目标。

  5. 湖屋目标中可用的表优化快捷方式。 此解决方案通过在 Notebook 中启动 Spark 作业提供帮助,该作业会在目标湖屋表中合并这些小型流文件。

    屏幕截图显示表优化设置。

  6. 湖屋目标会显示在画布上,并有一个转圈圈的状态指示器。 系统需要几分钟时间才能将状态更改为“活动”

    显示湖屋目标的屏幕截图。

管理目标

编辑/删除:可以通过导航窗格或画布编辑或删除事件流目标。

选择“编辑”时,会在主编辑器的右侧打开编辑窗格。 可以根据需要修改配置,包括通过事件处理程序编辑器的事件转换逻辑。

屏幕截图显示在画布上选择修改和删除目标选项的位置。

若要了解如何向 eventstream 添加其他目的地,请参阅以下文章: