数据连接器概述

数据引入是用于将数据从一个或多个源加载到 Microsoft Fabric 中的实时智能 KQL 数据库的过程。 引入后,数据即可供查询。 实时智能为数据引入提供了多个连接器。

下表汇总了可用的数据连接器、工具和集成。

名称 功能 是否支持流式处理? 类型 用例
Apache Flink 引流 ✔️ 开放源代码 遥测
Apache Kafka 引流 ✔️ 开放源代码 日志、遥测、时序
Apache Log4J 2 引流 ✔️ 开放源代码 日志
Apache Spark 导出
引流
开放源代码 遥测
Apache Spark for Azure Synapse Analytics 导出
引流
第一方 遥测
Azure 数据工厂 导出
引流
第一方 数据业务流程
Azure 事件中心 引流 ✔️ 第一方 消息传递
Azure Functions 导出
引流
第一方 工作流集成
Azure 流分析 引流 ✔️ 第一方 事件处理
Cribl Stream 引流 ✔️ 第一方 遥测、日志、指标、计算机数据
Fluent Bit 引流 ✔️ 开放源代码 日志、指标、跟踪
Logstash 引流 开放源代码 日志
NLog 引流 ✔️ 开放源代码 遥测、日志、指标
Open Telemetry 引流 ✔️ 开放源代码 跟踪、指标、日志
Power Automate 导出
引流
第一方 数据业务流程
Serilog 引流 ✔️ 开放源代码 日志
Splunk 引流 开放源代码 日志
Splunk 通用转发器 引流 开放源代码 日志
Telegraf 引流 ✔️ 开放源代码 指标、日志

下表汇总了可用连接器及其功能:

Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。 该连接器实现了用于跨 Azure 数据资源管理器和 Spark 群集移动数据的数据接收器。 使用 Azure 数据资源管理器和 Apache Flink,可以构建面向数据驱动型方案的可缩放快速应用程序。 例如,机器学习 (ML)、提取-转换-加载 (ETL) 和 Log Analytics。

Apache Kafka

Apache Kafka 是一个分布式流式处理平台,可用于构建实时流式处理数据管道,在系统或应用程序之间可靠地移动数据。 Kafka Connect 是一个工具,用于在 Apache Kafka 和其他数据系统之间以可缩放且可靠的方式流式传输数据。 Kafka 接收器充当来自 Kafka 的连接器,并且不需要使用代码。 该连接器已通过 Confluent 金级认证,已经过质量、功能完整性、标准合规性和性能方面的综合审查和测试。

Apache Log4J 2

Log4J 是适用于 Java 应用程序的流行日志记录框架,由 Apache 基金会维护。 开发人员可以使用 Log4j 根据记录器的名称、记录器级别和消息模式以任意粒度控制要输出的日志语句。 Apache Log4J 2 接收器允许将日志数据流式传输到数据库,你可以在其中实时分析和可视化日志。

Apache Spark

Apache Spark 是用于大规模数据处理的统一分析引擎。 Spark 连接器是可在任何 Spark 群集上运行的开源项目。 它实现数据源和数据接收器,以便将数据移出或移入 Spark 群集。 使用 Apache Spark 连接器,可以构建面向数据驱动场景的可缩放快速应用程序。 例如,机器学习 (ML)、提取-转换-加载 (ETL) 和 Log Analytics。 有了此连接器,数据库变成了标准 Spark 源和接收器操作(例如 read、write 和 writeStream)的有效数据存储。

Apache Spark for Azure Synapse Analytics

Apache Spark 是并行处理框架,支持使用内存中处理来提升大数据分析应用程序的性能。 Azure Synapse Analytics 中的 Apache Spark 是 Apache Spark 在云中的一种 Microsoft 实现。 可以使用适用于 Azure Synapse Analytics 的 Apache Spark 从 Synapse Studio 访问数据库。

Azure 数据工厂

Azure 数据工厂 (ADF) 是基于云的数据集成服务,可用于集成不同的数据存储,以及对数据执行活动。

Azure 事件中心

Azure 事件中心是大数据流式处理平台和事件引入服务。 可以配置从客户托管的事件中心持续引入。

Azure Functions

借助 Azure Functions,可以按计划或以响应某个事件的方式在云中运行无服务器代码。 使用 Azure Functions 的输入和输出绑定,可以将数据库集成到工作流中,以引入数据并针对数据库运行查询。

Azure 流分析

Azure 流分析是一个实时分析和复杂事件处理引擎,旨在处理来自多个源的大量快速流式处理数据。

Cribl Stream

Cribl Stream 是一个处理引擎,可安全地从任何源收集、处理和流式传输计算机事件数据。 它让你可以分析并处理任何目标的数据以进行分析。

  • 功能:引入
  • 支持的引入类型:批处理、流式处理
  • 用例: 计算机数据处理,包括日志、指标、检测数据
  • 文档:从 Cribl 流获取数据

Fluent Bit

Fluent Bit 是一种开源代理,用于从各种源收集日志、指标和跟踪。 它让你可以在将事件数据发送到存储之前对事件数据进行筛选、修改和聚合。

Logstash

借助 Logstash 插件,你能够将 Logstash 中的事件处理到数据库中以稍后进行分析。

NLog

NLog 是一个灵活且免费的日志记录平台,适用于 .NET Standard 等各种 .NET 平台。 借助 NLog,可以写入多个目标,例如数据库、文件或控制台。 使用 NLog,可以即时更改日志记录配置。 NLog 接收器是 NLog 的目标,可用于将日志消息发送到数据库。 该插件提供了将日志接收到群集的有效方法。

OpenTelemetry

OpenTelemetry 连接器支持将多个接收器的数据引入数据库。 它可以根据需求自定义导出数据的格式,以此充当将 OpenTelemetry 生成的数据引入数据库的桥梁。

Power Automate

Power Automate 用于自动执行业务流程的业务流程服务。 通过 Power Automate(以前称为 Microsoft Flow)连接器,可以作为计划式或触发式任务的一部分来编排和计划流、发送通知和警报。

Serilog

Serilog 是适用于 .NET 应用程序的常用日志记录框架。 开发人员可以使用 Serilog 来根据记录器的名称、记录器级别和消息模式以任意粒度控制要输出哪些日志语句。 Serilog 接收器也称为追加器,可将你的日志数据流式传输到数据库,你可以在其中对日志进行实时分析和可视化。

Splunk

Splunk Enterprise 是一个软件平台,可用于同时从多个源引入数据。 Azure 数据资源管理器加载项将数据从 Splunk 发送至群集中的表。

Splunk 通用转发器

Telegraf

Telegraf 是一种开放源代码、轻型、内存占用极小的代理,用于收集、处理和写入遥测数据,包括日志、指标和 IoT 数据。 Telegraf 支持数百个输入和输出插件。 它得到了开源社区的广泛使用和大力支持。 输出插件充当 Telegraf 的连接器,并支持从许多类型的输入插件将数据引入数据库。