数据连接器概述
数据引入是用于将数据从一个或多个源加载到 Microsoft Fabric 中的实时智能 KQL 数据库的过程。 引入后,数据即可供查询。 实时智能为数据引入提供了多个连接器。
下表汇总了可用的数据连接器、工具和集成。
名称 | 功能 | 是否支持流式处理? | 类型 | 用例 |
---|---|---|---|---|
Apache Flink | 引流 | ✔️ | 开放源代码 | 遥测 |
Apache Kafka | 引流 | ✔️ | 开放源代码 | 日志、遥测、时序 |
Apache Log4J 2 | 引流 | ✔️ | 开放源代码 | 日志 |
Apache Spark | 导出 引流 |
开放源代码 | 遥测 | |
Apache Spark for Azure Synapse Analytics | 导出 引流 |
第一方 | 遥测 | |
Azure 数据工厂 | 导出 引流 |
第一方 | 数据业务流程 | |
Azure 事件中心 | 引流 | ✔️ | 第一方 | 消息传递 |
Azure Functions | 导出 引流 |
第一方 | 工作流集成 | |
Azure 流分析 | 引流 | ✔️ | 第一方 | 事件处理 |
Cribl Stream | 引流 | ✔️ | 第一方 | 遥测、日志、指标、计算机数据 |
Fluent Bit | 引流 | ✔️ | 开放源代码 | 日志、指标、跟踪 |
Logstash | 引流 | 开放源代码 | 日志 | |
NLog | 引流 | ✔️ | 开放源代码 | 遥测、日志、指标 |
Open Telemetry | 引流 | ✔️ | 开放源代码 | 跟踪、指标、日志 |
Power Automate | 导出 引流 |
第一方 | 数据业务流程 | |
Serilog | 引流 | ✔️ | 开放源代码 | 日志 |
Splunk | 引流 | 开放源代码 | 日志 | |
Splunk 通用转发器 | 引流 | 开放源代码 | 日志 | |
Telegraf | 引流 | ✔️ | 开放源代码 | 指标、日志 |
下表汇总了可用连接器及其功能:
Apache Flink
Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。 该连接器实现了用于跨 Azure 数据资源管理器和 Spark 群集移动数据的数据接收器。 使用 Azure 数据资源管理器和 Apache Flink,可以构建面向数据驱动型方案的可缩放快速应用程序。 例如,机器学习 (ML)、提取-转换-加载 (ETL) 和 Log Analytics。
- 功能:引入
- 支持的引入类型:流式处理
- 用例:遥测
- 基础 SDK:Java
- 存储库:Microsoft Azure – https://github.com/Azure/flink-connector-kusto/
- 文档:从 Apache Flink 获取数据
Apache Kafka
Apache Kafka 是一个分布式流式处理平台,可用于构建实时流式处理数据管道,在系统或应用程序之间可靠地移动数据。 Kafka Connect 是一个工具,用于在 Apache Kafka 和其他数据系统之间以可缩放且可靠的方式流式传输数据。 Kafka 接收器充当来自 Kafka 的连接器,并且不需要使用代码。 该连接器已通过 Confluent 金级认证,已经过质量、功能完整性、标准合规性和性能方面的综合审查和测试。
- 功能:引入
- 支持的引入类型:批处理、流式处理
- 用例:日志、遥测、时序
- 基础 SDK:Java
- 存储库:Microsoft Azure – https://github.com/Azure/kafka-sink-azure-kusto/
- 文档:从 Apache Kafka 获取数据
- 社区博客:从 Kafka 引入 Azure 数据资源管理器
Apache Log4J 2
Log4J 是适用于 Java 应用程序的流行日志记录框架,由 Apache 基金会维护。 开发人员可以使用 Log4j 根据记录器的名称、记录器级别和消息模式以任意粒度控制要输出的日志语句。 Apache Log4J 2 接收器允许将日志数据流式传输到数据库,你可以在其中实时分析和可视化日志。
- 功能:引入
- 支持的引入类型:批处理、流式处理
- 用例:日志
- 基础 SDK:Java
- 存储库:Microsoft Azure – https://github.com/Azure/azure-kusto-log4j
- 文档:使用 Apache Log4J 2 连接器获取数据
- 社区博客:Apache Log4J 和 Azure 数据资源管理器入门
Apache Spark
Apache Spark 是用于大规模数据处理的统一分析引擎。 Spark 连接器是可在任何 Spark 群集上运行的开源项目。 它实现数据源和数据接收器,以便将数据移出或移入 Spark 群集。 使用 Apache Spark 连接器,可以构建面向数据驱动场景的可缩放快速应用程序。 例如,机器学习 (ML)、提取-转换-加载 (ETL) 和 Log Analytics。 有了此连接器,数据库变成了标准 Spark 源和接收器操作(例如 read、write 和 writeStream)的有效数据存储。
- 功能:引入、导出
- 支持的引入类型:批处理、流式处理
- 用例:遥测
- 基础 SDK:Java
- 存储库:Microsoft Azure – https://github.com/Azure/azure-kusto-spark/
- 文档:Apache Spark 连接器
- 社区博客:使用 Apache Spark 对 Azure 数据资源管理器进行数据预处理
Apache Spark for Azure Synapse Analytics
Apache Spark 是并行处理框架,支持使用内存中处理来提升大数据分析应用程序的性能。 Azure Synapse Analytics 中的 Apache Spark 是 Apache Spark 在云中的一种 Microsoft 实现。 可以使用适用于 Azure Synapse Analytics 的 Apache Spark 从 Synapse Studio 访问数据库。
- 功能:引入、导出
- 支持的引入类型:批处理
- 用例:遥测
- 基础 SDK:Java
- 文档:连接到 Azure Synapse 工作区
Azure 数据工厂
Azure 数据工厂 (ADF) 是基于云的数据集成服务,可用于集成不同的数据存储,以及对数据执行活动。
- 功能:引入、导出
- 支持的引入类型:批处理
- 用例:数据业务流程
- 文档:使用 Azure 数据工厂将数据复制到数据库
Azure 事件中心
Azure 事件中心是大数据流式处理平台和事件引入服务。 可以配置从客户托管的事件中心持续引入。
- 功能:引入
- 支持的引入类型:批处理、流式处理
- 文档:Azure 事件中心数据连接
Azure Functions
借助 Azure Functions,可以按计划或以响应某个事件的方式在云中运行无服务器代码。 使用 Azure Functions 的输入和输出绑定,可以将数据库集成到工作流中,以引入数据并针对数据库运行查询。
- 功能:引入、导出
- 支持的引入类型:批处理
- 用例:工作流集成
- 文档:使用输入和输出绑定集成 Azure Functions(预览版)
- 社区博客:适用于 Azure Functions 的 Azure 数据资源管理器 (Kusto) 绑定
Azure 流分析
Azure 流分析是一个实时分析和复杂事件处理引擎,旨在处理来自多个源的大量快速流式处理数据。
- 功能:引入
- 支持的引入类型:批处理、流式处理
- 用例:事件处理
- 文档:从 Azure 流分析获取数据
Cribl Stream
Cribl Stream 是一个处理引擎,可安全地从任何源收集、处理和流式传输计算机事件数据。 它让你可以分析并处理任何目标的数据以进行分析。
- 功能:引入
- 支持的引入类型:批处理、流式处理
- 用例: 计算机数据处理,包括日志、指标、检测数据
- 文档:从 Cribl 流获取数据
Fluent Bit
Fluent Bit 是一种开源代理,用于从各种源收集日志、指标和跟踪。 它让你可以在将事件数据发送到存储之前对事件数据进行筛选、修改和聚合。
- 功能:引入
- 支持的引入类型:批处理
- 用例:日志、指标、跟踪
- 存储库:fluent-bit Kusto 输出插件
- 文档:使用 Fluent Bit 获取数据
Logstash
借助 Logstash 插件,你能够将 Logstash 中的事件处理到数据库中以稍后进行分析。
- 功能:引入
- 支持的引入类型:批处理
- 用例:日志
- 基础 SDK:Java
- 存储库:Microsoft Azure – https://github.com/Azure/logstash-output-kusto/
- 文档:从 Logstash 获取数据
- 社区博客:如何从 Elasticsearch 迁移到 Azure 数据资源管理器
NLog
NLog 是一个灵活且免费的日志记录平台,适用于 .NET Standard 等各种 .NET 平台。 借助 NLog,可以写入多个目标,例如数据库、文件或控制台。 使用 NLog,可以即时更改日志记录配置。 NLog 接收器是 NLog 的目标,可用于将日志消息发送到数据库。 该插件提供了将日志接收到群集的有效方法。
- 功能:引入
- 支持的引入类型:批处理、流式处理
- 用例:遥测、日志、指标
- 基础 SDK:.NET
- 存储库:Microsoft Azure – https://github.com/Azure/azure-kusto-nlog-sink
- 文档:使用 NLog 接收器获取数据
- 社区博客:NLog 接收器和 Azure 数据资源管理器入门
OpenTelemetry
OpenTelemetry 连接器支持将多个接收器的数据引入数据库。 它可以根据需求自定义导出数据的格式,以此充当将 OpenTelemetry 生成的数据引入数据库的桥梁。
- 功能:引入
- 支持的引入类型:批处理、流式处理
- 用例:跟踪、指标、日志
- 基础 SDK:Go
- 存储库:OpenTelemetry - https://github.com/open-telemetry/opentelemetry-collector-contrib/tree/main/exporter/azuredataexplorerexporter
- 文档:从 OpenTelemetry 获取数据
- 社区博客:Open Telemetry 和 Azure 数据资源管理器入门
Power Automate
Power Automate 用于自动执行业务流程的业务流程服务。 通过 Power Automate(以前称为 Microsoft Flow)连接器,可以作为计划式或触发式任务的一部分来编排和计划流、发送通知和警报。
- 功能:引入、导出
- 支持的引入类型:批处理
- 用例:数据业务流程
- 文档:Microsoft Power Automate 连接器
Serilog
Serilog 是适用于 .NET 应用程序的常用日志记录框架。 开发人员可以使用 Serilog 来根据记录器的名称、记录器级别和消息模式以任意粒度控制要输出哪些日志语句。 Serilog 接收器也称为追加器,可将你的日志数据流式传输到数据库,你可以在其中对日志进行实时分析和可视化。
- 功能:引入
- 支持的引入类型:批处理、流式处理
- 用例:日志
- 基础 SDK:.NET
- 存储库:Microsoft Azure – https://github.com/Azure/serilog-sinks-azuredataexplorer
- 文档:从 Serilog 获取数据
- 社区博客:Serilog 接收器和 Azure 数据资源管理器入门
Splunk
Splunk Enterprise 是一个软件平台,可用于同时从多个源引入数据。 Azure 数据资源管理器加载项将数据从 Splunk 发送至群集中的表。
- 功能:引入
- 支持的引入类型:批处理
- 用例:日志
- 基础 SDK:Python
- 存储库:Microsoft Azure – https://github.com/Azure/azure-kusto-splunk/tree/main/splunk-adx-alert-addon
- 文档:从 Splunk 获取数据
- Splunk Base:适用于 Splunk 的 Microsoft Fabric 加载项
- 社区博客:适用于 Splunk 的 Microsoft Azure 数据资源管理器加载项入门
Splunk 通用转发器
- 功能:引入
- 支持的引入类型:批处理
- 用例:日志
- 存储库:Microsoft Azure – https://github.com/Azure/azure-kusto-splunk
- 文档:从 Splunk 通用转发器获取数据到 Azure 数据资源管理器
- 社区博客:使用 Splunk 通用转发器获取数据到 Azure 数据资源管理器
Telegraf
Telegraf 是一种开放源代码、轻型、内存占用极小的代理,用于收集、处理和写入遥测数据,包括日志、指标和 IoT 数据。 Telegraf 支持数百个输入和输出插件。 它得到了开源社区的广泛使用和大力支持。 输出插件充当 Telegraf 的连接器,并支持从许多类型的输入插件将数据引入数据库。
- 功能:引入
- 支持的引入类型:批处理、流式处理
- 用例:遥测、日志、指标
- 基础 SDK:Go
- 存储库:InfluxData - https://github.com/influxdata/telegraf/tree/master/plugins/outputs/azure_data_explorer
- 文档:从 Telegraf 获取数据
- 社区博客:Telegraf 的新 Azure 数据资源管理器输出插件可以实现大规模 SQL 监视