数据连接器概述

项目
10/25/2024

数据引入是用于将数据从一个或多个源加载到 Microsoft Fabric 中的实时智能 KQL 数据库的过程。引入后，数据即可供查询。实时智能为数据引入提供了多个连接器。

下表汇总了可用的数据连接器、工具和集成。

名称	功能	是否支持流式处理？	类型	用例
Apache Flink	引流	✔️	开放源代码	遥测
Apache Kafka	引流	✔️	开放源代码	日志、遥测、时序
Apache Log4J 2	引流	✔️	开放源代码	日志
Apache Spark	导出引流		开放源代码	遥测
Apache Spark for Azure Synapse Analytics	导出引流		第一方	遥测
Azure 数据工厂	导出引流		第一方	数据业务流程
Azure 事件中心	引流	✔️	第一方	消息传递
Azure Functions	导出引流		第一方	工作流集成
Azure 流分析	引流	✔️	第一方	事件处理
Cribl Stream	引流	✔️	第一方	遥测、日志、指标、计算机数据
Fluent Bit	引流	✔️	开放源代码	日志、指标、跟踪
Logstash	引流		开放源代码	日志
NLog	引流	✔️	开放源代码	遥测、日志、指标
Open Telemetry	引流	✔️	开放源代码	跟踪、指标、日志
Power Automate	导出引流		第一方	数据业务流程
Serilog	引流	✔️	开放源代码	日志
Splunk	引流		开放源代码	日志
Splunk 通用转发器	引流		开放源代码	日志
Telegraf	引流	✔️	开放源代码	指标、日志

下表汇总了可用连接器及其功能：

Apache Flink

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。该连接器实现了用于跨 Azure 数据资源管理器和 Spark 群集移动数据的数据接收器。使用 Azure 数据资源管理器和 Apache Flink，可以构建面向数据驱动型方案的可缩放快速应用程序。例如，机器学习 (ML)、提取-转换-加载 (ETL) 和 Log Analytics。

功能：引入
支持的引入类型：流式处理
用例：遥测
基础 SDK：Java
存储库：Microsoft Azure – https://github.com/Azure/flink-connector-kusto/
文档：从 Apache Flink 获取数据

Apache Kafka

Apache Kafka 是一个分布式流式处理平台，可用于构建实时流式处理数据管道，在系统或应用程序之间可靠地移动数据。 Kafka Connect 是一个工具，用于在 Apache Kafka 和其他数据系统之间以可缩放且可靠的方式流式传输数据。 Kafka 接收器充当来自 Kafka 的连接器，并且不需要使用代码。该连接器已通过 Confluent 金级认证，已经过质量、功能完整性、标准合规性和性能方面的综合审查和测试。

功能：引入
支持的引入类型：批处理、流式处理
用例：日志、遥测、时序
基础 SDK：Java
存储库：Microsoft Azure – https://github.com/Azure/kafka-sink-azure-kusto/
文档：从 Apache Kafka 获取数据
社区博客：从 Kafka 引入 Azure 数据资源管理器

Apache Log4J 2

Log4J 是适用于 Java 应用程序的流行日志记录框架，由 Apache 基金会维护。开发人员可以使用 Log4j 根据记录器的名称、记录器级别和消息模式以任意粒度控制要输出的日志语句。 Apache Log4J 2 接收器允许将日志数据流式传输到数据库，你可以在其中实时分析和可视化日志。

功能：引入
支持的引入类型：批处理、流式处理
用例：日志
基础 SDK：Java
存储库：Microsoft Azure – https://github.com/Azure/azure-kusto-log4j
文档：使用 Apache Log4J 2 连接器获取数据
社区博客：Apache Log4J 和 Azure 数据资源管理器入门

Apache Spark

Apache Spark 是用于大规模数据处理的统一分析引擎。 Spark 连接器是可在任何 Spark 群集上运行的开源项目。它实现数据源和数据接收器，以便将数据移出或移入 Spark 群集。使用 Apache Spark 连接器，可以构建面向数据驱动场景的可缩放快速应用程序。例如，机器学习 (ML)、提取-转换-加载 (ETL) 和 Log Analytics。有了此连接器，数据库变成了标准 Spark 源和接收器操作（例如 read、write 和 writeStream）的有效数据存储。

功能：引入、导出
支持的引入类型：批处理、流式处理
用例：遥测
基础 SDK：Java
存储库：Microsoft Azure – https://github.com/Azure/azure-kusto-spark/
文档：Apache Spark 连接器
社区博客：使用 Apache Spark 对 Azure 数据资源管理器进行数据预处理

Apache Spark for Azure Synapse Analytics

Apache Spark 是并行处理框架，支持使用内存中处理来提升大数据分析应用程序的性能。 Azure Synapse Analytics 中的 Apache Spark 是 Apache Spark 在云中的一种 Microsoft 实现。可以使用适用于 Azure Synapse Analytics 的 Apache Spark 从 Synapse Studio 访问数据库。

功能：引入、导出
支持的引入类型：批处理
用例：遥测
基础 SDK：Java
文档：连接到 Azure Synapse 工作区

Azure 数据工厂

Azure 数据工厂 (ADF) 是基于云的数据集成服务，可用于集成不同的数据存储，以及对数据执行活动。

功能：引入、导出
支持的引入类型：批处理
用例：数据业务流程
文档：使用 Azure 数据工厂将数据复制到数据库

Azure 事件中心

Azure 事件中心是大数据流式处理平台和事件引入服务。可以配置从客户托管的事件中心持续引入。

功能：引入
支持的引入类型：批处理、流式处理
文档：Azure 事件中心数据连接

Azure Functions

借助 Azure Functions，可以按计划或以响应某个事件的方式在云中运行无服务器代码。使用 Azure Functions 的输入和输出绑定，可以将数据库集成到工作流中，以引入数据并针对数据库运行查询。

功能：引入、导出
支持的引入类型：批处理
用例：工作流集成
文档：使用输入和输出绑定集成 Azure Functions（预览版）
社区博客：适用于 Azure Functions 的 Azure 数据资源管理器 (Kusto) 绑定

Azure 流分析

Azure 流分析是一个实时分析和复杂事件处理引擎，旨在处理来自多个源的大量快速流式处理数据。

功能：引入
支持的引入类型：批处理、流式处理
用例：事件处理
文档：从 Azure 流分析获取数据

Cribl Stream

Cribl Stream 是一个处理引擎，可安全地从任何源收集、处理和流式传输计算机事件数据。它让你可以分析并处理任何目标的数据以进行分析。

功能：引入
支持的引入类型：批处理、流式处理
用例：计算机数据处理，包括日志、指标、检测数据
文档：从 Cribl 流获取数据

Fluent Bit

Fluent Bit 是一种开源代理，用于从各种源收集日志、指标和跟踪。它让你可以在将事件数据发送到存储之前对事件数据进行筛选、修改和聚合。

功能：引入
支持的引入类型：批处理
用例：日志、指标、跟踪
存储库：fluent-bit Kusto 输出插件
文档：使用 Fluent Bit 获取数据

Logstash

借助 Logstash 插件，你能够将 Logstash 中的事件处理到数据库中以稍后进行分析。

功能：引入
支持的引入类型：批处理
用例：日志
基础 SDK：Java
存储库：Microsoft Azure – https://github.com/Azure/logstash-output-kusto/
文档：从 Logstash 获取数据
社区博客：如何从 Elasticsearch 迁移到 Azure 数据资源管理器

NLog

NLog 是一个灵活且免费的日志记录平台，适用于 .NET Standard 等各种 .NET 平台。借助 NLog，可以写入多个目标，例如数据库、文件或控制台。使用 NLog，可以即时更改日志记录配置。 NLog 接收器是 NLog 的目标，可用于将日志消息发送到数据库。该插件提供了将日志接收到群集的有效方法。

功能：引入
支持的引入类型：批处理、流式处理
用例：遥测、日志、指标
基础 SDK：.NET
存储库：Microsoft Azure – https://github.com/Azure/azure-kusto-nlog-sink
文档：使用 NLog 接收器获取数据
社区博客：NLog 接收器和 Azure 数据资源管理器入门

OpenTelemetry

OpenTelemetry 连接器支持将多个接收器的数据引入数据库。它可以根据需求自定义导出数据的格式，以此充当将 OpenTelemetry 生成的数据引入数据库的桥梁。

功能：引入
支持的引入类型：批处理、流式处理
用例：跟踪、指标、日志
基础 SDK：Go
存储库：OpenTelemetry - https://github.com/open-telemetry/opentelemetry-collector-contrib/tree/main/exporter/azuredataexplorerexporter
文档：从 OpenTelemetry 获取数据
社区博客：Open Telemetry 和 Azure 数据资源管理器入门

Power Automate

Power Automate 用于自动执行业务流程的业务流程服务。通过 Power Automate（以前称为 Microsoft Flow）连接器，可以作为计划式或触发式任务的一部分来编排和计划流、发送通知和警报。

功能：引入、导出
支持的引入类型：批处理
用例：数据业务流程
文档：Microsoft Power Automate 连接器

Serilog

Serilog 是适用于 .NET 应用程序的常用日志记录框架。开发人员可以使用 Serilog 来根据记录器的名称、记录器级别和消息模式以任意粒度控制要输出哪些日志语句。 Serilog 接收器也称为追加器，可将你的日志数据流式传输到数据库，你可以在其中对日志进行实时分析和可视化。

功能：引入
支持的引入类型：批处理、流式处理
用例：日志
基础 SDK：.NET
存储库：Microsoft Azure – https://github.com/Azure/serilog-sinks-azuredataexplorer
文档：从 Serilog 获取数据
社区博客：Serilog 接收器和 Azure 数据资源管理器入门

Splunk

Splunk Enterprise 是一个软件平台，可用于同时从多个源引入数据。 Azure 数据资源管理器加载项将数据从 Splunk 发送至群集中的表。

功能：引入
支持的引入类型：批处理
用例：日志
基础 SDK：Python
存储库：Microsoft Azure – https://github.com/Azure/azure-kusto-splunk/tree/main/splunk-adx-alert-addon
文档：从 Splunk 获取数据
Splunk Base：适用于 Splunk 的 Microsoft Fabric 加载项
社区博客：适用于 Splunk 的 Microsoft Azure 数据资源管理器加载项入门

Splunk 通用转发器

功能：引入
支持的引入类型：批处理
用例：日志
存储库：Microsoft Azure – https://github.com/Azure/azure-kusto-splunk
文档：从 Splunk 通用转发器获取数据到 Azure 数据资源管理器
社区博客：使用 Splunk 通用转发器获取数据到 Azure 数据资源管理器

Telegraf

Telegraf 是一种开放源代码、轻型、内存占用极小的代理，用于收集、处理和写入遥测数据，包括日志、指标和 IoT 数据。 Telegraf 支持数百个输入和输出插件。它得到了开源社区的广泛使用和大力支持。输出插件充当 Telegraf 的连接器，并支持从许多类型的输入插件将数据引入数据库。

功能：引入
支持的引入类型：批处理、流式处理
用例：遥测、日志、指标
基础 SDK：Go
存储库：InfluxData - https://github.com/influxdata/telegraf/tree/master/plugins/outputs/azure_data_explorer
文档：从 Telegraf 获取数据
社区博客：Telegraf 的新 Azure 数据资源管理器输出插件可以实现大规模 SQL 监视

通过