数据流刷新
通过数据流,可以连接到存储,将数据转换、合并和加载到存储,以供下游使用。 数据流中的一个关键元素是刷新过程,它应用创作过程中定义的转换步骤,将数据提取、转换和加载到目标存储。
可以通过两种方式之一触发数据流刷新:按需触发或设置刷新计划。 计划刷新会根据您指定的特定日期和时间运行。
先决条件
以下是刷新数据流的先决条件:
按需刷新
若要按需刷新数据流,请选择工作区列表或世系视图中的“刷新”图标。
可通过其他方式触发按需数据流刷新。 数据流发布成功完成后,就会启动按需刷新。 还可以通过包含数据流活动的管道触发按需刷新。
计划刷新
若要按计划自动刷新数据流,请选择工作区列表视图中的“计划刷新”图标:
可在“刷新”部分定义刷新数据流的频率和时间段,每天最多可刷新 48 次。 以下屏幕截图显示了时间间隔为 12 小时的每日刷新计划。
取消刷新
如果因为容量接近极限或是刷新时间超过预期而需要在高峰时段停止刷新,取消数据流刷新会非常有用。 使用刷新取消功能停止刷新数据流。
若要取消数据流刷新,请在工作区列表或世系视图中选择“取消”图标,以获取正在刷新的数据流。
取消数据流刷新后,数据流的刷新历史记录状态就会更新,以反映取消状态:
刷新限制
对于数据流刷新,有一些限制:
- 根据数据流,每 24 小时只能刷新 150 次(滚动窗口)。 如果超出此限制,刷新历史记录中会收到错误,并在刷新次数低于上限后恢复。
- 如果计划的数据流刷新连续失败,我们会暂停数据流刷新计划,并向数据流所有者发送电子邮件。 在这种情况下,下列规则适用:
- 72 小时(3 天)
- 72 小时内故障率 100%
- 至少 6 次刷新(每天 2 次刷新)
- 168 小时(1 周)
- 168 小时内故障率 100%
- 至少 5 次刷新(每天 1 次刷新)
- 72 小时(3 天)
- 查询的单次评估时间限制为 8 小时。
- 数据流单次刷新的总刷新时间最多不超过 24 小时。
- 每个数据流最多可以有 50 个分阶段查询,或具有输出目标的查询,或两者的组合。
刷新取消对输出数据的影响
数据流刷新可通过取消刷新功能停止,或者在处理数据流查询期间发生故障时停止。 根据目标类型和停止刷新的时间,可以观察到不同的结果。 对于查询的两种类型的数据目标,可能的结果如下:
- 查询将数据加载到暂存:上次成功刷新的数据可用。
- 查询将数据加载到数据目标:到取消点为止写入的数据可用。
数据流中的所有查询并不是同时处理的,例如,如果数据流包含许多查询或某些查询依赖于其他查询。 如果在开始计算将数据加载到目标的查询之前取消刷新,则该查询目标中的数据不会发生任何更改。