本文回答有关 Azure 数据资源管理器引入的常见问题。
排队引入和数据延迟
排队引入如何影响我的数据?
批处理管理器根据引入批处理策略中的引入设置缓冲引入数据并进行批处理。 引入批处理策略根据三个限制因素设置批处理限制:自批处理创建以来经过的时间、项目 (blob) 的累积数量或总批处理大小(以先发生者为准)。 默认批处理设置为 5 分钟/1 GB/1,000 blob,这意味着在对样本数据进行排队以便引入时至少会有 5 分钟的延迟。
我应该使用排队引入还是流式引入?
排队引入针对高引入吞吐量进行了优化,是首选且性能最高的引入类型。 相比之下,流式引入针对低引入延迟进行了优化。 详细了解排队引入与流式引入。
是否需要更改批处理策略?
如果引入批处理策略的默认设置不适合你的需求,可以尝试降低批处理策略 time
。
请参阅针对高吞吐量进行优化。
在纵向扩展引入时,还应更新设置。
更改批处理策略设置时,最多可能需要 5 分钟才能生效。
哪些因素会导致排队引入延迟?
可以在何处查看排队引入延迟指标?
要查看排队引入延迟指标,请参阅监视引入延迟。 Stage Latency
和 Discovery Latency
指标显示引入过程中的延迟,并显示是否存在任何较长的延迟。
如何缩短排队引入延迟?
可以了解延迟并调整批处理策略中的设置,以解决导致延迟的问题,例如数据积压、批处理效率低、批处理大量未压缩数据或引入非常少量的数据。
如何计算批处理数据大小?
为未压缩的数据设置批处理策略数据大小。 当引入压缩数据时,未压缩的数据大小根据引入批处理参数、Zip 文件元数据或相对于压缩文件大小的系数计算而来。
引入监视、指标和错误
如何监视引入问题?
可以使用指标监视引入,并通过设置和使用引入诊断日志进行详细的表级监视、查看详细的引入错误代码等。 可以选择要跟踪的特定指标、选择如何汇总结果以及创建指标图表以在仪表板上查看。 详细了解流式处理指标和如何监视排队引入。
在哪里可以查看有关引入的见解?
可以通过门户的 Azure Monitor Insights 来帮助你了解Azure 数据资源管理器性能及其使用方式。 见解视图基于可流式传输到 Log Analytics 工作区的指标和诊断日志。 使用 .dup-next-ingest 命令将下一个引入复制到存储容器中,并查看引入的详细信息和元数据。
在哪里查看引入错误?
可以使用引入指标和诊断日志监视整个引入过程。
可以使用 IngestionResult
指标或 FailedIngestion
诊断日志监视引入失败。
.show ingestion failures
命令显示与数据引入管理命令关联的引入失败,不建议使用它来监视错误。
命令 .dup-next-failed-ingest
通过将引入文件和元数据上传到存储容器来提供有关下一个失败引入的信息。
这对于检查引入流非常有用,但不建议将其用于稳定监视。
如果发现许多重试错误,该怎么办?
多次包含 RetryAttemptsExceeded
指标状态的指标指示在反复出现暂时性错误后,引入已超出重试尝试限制或时间跨度限制。
如果此错误也出现在诊断日志中,并包含错误代码 General_RetryAttemptsExceeded
和详细信息“无法访问存储并获取 blob 的信息”,则表明存在高负载存储访问问题。
在事件网格引入期间,Azure 数据资源管理器从存储帐户请求 blob 详细信息。
当存储帐户的负载过高时,存储访问可能会失败,并且无法检索引入所需的信息。
如果尝试次数超过了定义的最大重试次数,Azure 数据资源管理器将停止尝试引入失败的 blob。
为防止出现负载问题,请使用高级存储帐户或将引入的数据分配到更多存储帐户。
要发现相关错误,请查看 FailedIngestion
诊断日志以获取错误代码和任何失败 blob 的路径。
引入历史数据
如何引入大量历史数据并确保性能良好?
若要高效率地引入大量历史数据,请使用 LightIngest。 有关详细信息,请参阅引入历史数据。 若要针对众多小文件提高性能,请调整批处理策略,更改批处理条件和地址延迟。 若要在引入特大数据文件时提高引入性能,请使用 Azure 数据工厂 (ADF),它是一种基于云的数据集成服务。
引入无效数据
引入无效数据时会发生什么情况?
格式错误、无法分析、太大或不符合架构的数据可能无法正确引入。 有关详细信息,请参阅引入无效数据。
SDK 和连接器
如何使用 SDK 来提高引入性能?
通过 SDK 进行引入时,可以使用引入批处理策略设置来提高性能。 尝试将表或数据库批处理策略中引入的数据大小逐渐减小到 250 MB。 检查是否有改进。