将数据从 Telegraf 引入到 Azure 数据资源管理器
重要
此连接器可用于 Microsoft Fabric 中的实时智能。 使用本文中的说明时,请注意以下例外情况:
- 如果需要,请按照创建 KQL 数据库中的说明创建数据库。
- 如果需要,请按照创建空表中的说明创建表。
- 使用复制 URI 中的说明获取查询或引入 URI。
- 运行 KQL 查询集中的查询。
Azure 数据资源管理器支持从 Telegraf 进行数据引入。 Telegraf 是一种开源、轻型、内存占用极小的代理,用于收集、处理和写入遥测数据,包括日志、指标和 IoT 数据。 Telegraf 支持数百个输入和输出插件。 它得到了开源社区的广泛使用和大力支持。 Azure 数据资源管理器输出插件充当 Telegraf 的连接器,并支持将数据从许多类型的输入插件引入 Azure 数据资源管理器。
先决条件
- Azure 订阅。 创建免费 Azure 帐户。
- Azure 数据资源管理器群集和数据库。 创建群集和数据库。
- Telegraf。 在虚拟机 (VM) 或容器中托管 Telegraf。 Telegraf 可以在部署受监视应用或服务的本地托管,也可以在专用监视计算/容器上远程托管。
支持的身份验证方法
插件支持以下身份验证方法:
具有应用密钥或证书的 Microsoft Entra 应用程序。
- 有关如何在 Microsoft Entra ID 中创建和注册应用的信息,请参阅注册应用程序。
- 有关服务主体的信息,请参阅 Microsoft Entra ID 中的应用程序和服务主体对象。
Microsoft Entra 用户令牌
- 允许插件像用户一样进行身份验证。 我们仅建议使用此方法进行开发。
Azure 托管服务标识 (MSI) 令牌
- 如果在支持的 Azure 环境(例如 Azure 虚拟机)中运行 Telegraf,则这是首选的身份验证方法。
无论使用哪种方法,都必须在 Azure 数据资源管理器中为指定主体分配“数据库用户”角色。 此角色允许插件创建引入数据所需的表。 如果插件已配置 create_tables=false
,则指定的主体必须至少具有“数据库引入者”角色。
配置身份验证方法
插件检查环境变量的特定配置,以确定要使用的身份验证方法。 按指定顺序评估配置,并使用检测到的第一个配置。 如果未检测到有效的配置,插件将无法进行身份验证。
若要为插件配置身份验证,请为所选的身份验证方法设置适当的环境变量:
客户端凭据(Microsoft Entra 应用程序令牌):Microsoft Entra 应用程序 ID 和机密。
AZURE_TENANT_ID
:用于身份验证的 Microsoft Entra 租户 ID。AZURE_CLIENT_ID
:租户中应用注册的客户端 ID。AZURE_CLIENT_SECRET
:专为应用注册生成的客户端密码。
客户端证书(Microsoft Entra 应用程序令牌):Microsoft Entra 应用程序 ID 和 X.509 证书。
AZURE_TENANT_ID
:用于身份验证的 Microsoft Entra 租户 ID。AZURE_CERTIFICATE_PATH
:PEM 或 PFX 格式的证书和私钥对路径,可对应用注册进行身份验证。AZURE_CERTIFICATE_PASSWORD
:为证书设置的密码。
资源所有者密码(Microsoft Entra 用户令牌):Microsoft Entra 用户和密码。 我们不建议使用此授权类型。 如果需要交互式登录,请使用设备登录。
AZURE_TENANT_ID
:用于身份验证的 Microsoft Entra 租户 ID。AZURE_CLIENT_ID
:租户中应用注册的客户端 ID。AZURE_USERNAME
:Microsoft Entra 用户帐户的用户名(也称为 upn)。AZURE_PASSWORD
:Microsoft Entra 用户帐户的密码。 请注意,这不支持已启用 MFA 的帐户。
Azure 托管服务标识:将凭据管理委托给平台。 此方法要求在 Azure 中(例如 VM)运行代码。 所有配置均由 Azure 处理。 有关详细信息,请参阅 Azure 托管服务标识。 此方法仅在使用 Azure 资源管理器时才适用。
配置 Telegraf
Telergraf 是一个配置驱动的代理。 若要开始,必须安装 Telegraf 并配置所需的输入和输出插件。 配置文件的默认位置如下所示:
- 在 Windows 中:C:\Program Files\Telegraf\telegraf.conf
- 在 Linux 中:etc/telegraf/telegraf.conf
若要启用 Azure 数据资源管理器输出插件,必须在自动生成的配置文件中取消注释以下部分:
[[outputs.azure_data_explorer]]
## The URI property of the Azure Data Explorer resource on Azure
## ex: https://myadxresource.australiasoutheast.kusto.windows.net
# endpoint_url = ""
## The Azure Data Explorer database that the metrics will be ingested into.
## The plugin will NOT generate this database automatically, it's expected that this database already exists before ingestion.
## ex: "exampledatabase"
# database = ""
## Timeout for Azure Data Explorer operations, default value is 20 seconds
# timeout = "20s"
## Type of metrics grouping used when ingesting to Azure Data Explorer
## Default value is "TablePerMetric" which means there will be one table for each metric
# metrics_grouping_type = "TablePerMetric"
## Name of the single table to store all the metrics (Only needed if metrics_grouping_type is "SingleTable").
# table_name = ""
## Creates tables and relevant mapping if set to true(default).
## Skips table and mapping creation if set to false, this is useful for running telegraf with the least possible access permissions i.e. table ingestor role.
# create_tables = true
支持的引入类型
该插件支持托管(流式)和排队(批量)引入。 默认引入类型为排队。
重要
要使用托管引入,必须在群集上启用流式引入。
要配置插件的引入类型,请修改自动生成的配置文件,如下所示:
## Ingestion method to use.
## Available options are
## - managed -- streaming ingestion with fallback to batched ingestion or the "queued" method below
## - queued -- queue up metrics data and process sequentially
# ingestion_type = "queued"
查询引入数据
下面举例说明了使用 SQL 和 syslog 输入插件以及 Azure 数据资源管理器输出插件收集的数据。 对于每个输入方法,有一个示例演示了如何在 Azure 数据资源管理器中使用数据转换和查询。
SQL 输入插件
下表展示了 SQL 输入插件收集的示例指标数据:
name | 标记 | timestamp | fields |
---|---|---|---|
sqlserver_database_io | {"database_name":"azure-sql-db2","file_type":"DATA","host":"adx-vm","logical_filename":"tempdev","measurement_db_type":"AzureSQLDB","physical_filename":"tempdb.mdf","replica_updateability":"READ_WRITE","sql_instance":"adx-sql-server"} | 2021-09-09T13:51:20Z | {"current_size_mb":16,"database_id":2,"file_id":1,"read_bytes":2965504,"read_latency_ms":68,"reads":47,"rg_read_stall_ms":42,"rg_write_stall_ms":0,"space_used_mb":0,"write_bytes":1220608,"write_latency_ms":103,"writes":149} |
sqlserver_waitstats | {"database_name":"azure-sql-db2","host":"adx-vm","measurement_db_type":"AzureSQLDB","replica_updateability":"READ_WRITE","sql_instance":"adx-sql-server","wait_category":"Worker Thread","wait_type":"THREADPOOL"} | 2021-09-09T13:51:20Z | {"max_wait_time_ms":15,"resource_wait_ms":4469,"signal_wait_time_ms":0,"wait_time_ms":4469,"waiting_tasks_count":1464} |
由于收集的指标对象是一种复杂类型,因此“字段”和“标记”列存储为动态数据类型。 可通过多种方式查询此数据,例如:
直接查询 JSON 属性:可以采用原始格式查询 JSON 数据,而无需对其进行分析。
示例 1
Tablename | where name == "sqlserver_azure_db_resource_stats" and todouble(fields.avg_cpu_percent) > 7
示例 2
Tablename | distinct tostring(tags.database_name)
注意
使用大量数据时,此方法可能会影响性能。 在这种情况下,请使用更新策略方法。
使用更新策略:使用更新策略转换动态数据类型列。 建议使用此方法查询大量数据。
// Function to transform data .create-or-alter function Transform_TargetTableName() { SourceTableName | mv-apply fields on (extend key = tostring(bag_keys(fields)[0])) | project fieldname=key, value=todouble(fields[key]), name, tags, timestamp } // Create destination table with above query's results schema (if it doesn't exist already) .set-or-append TargetTableName <| Transform_TargetTableName() | take 0 // Apply update policy on destination table .alter table TargetTableName policy update @'[{"IsEnabled": true, "Source": "SourceTableName", "Query": "Transform_TargetTableName()", "IsTransactional": true, "PropagateIngestionProperties": false}]'
Syslog 输入插件
下表展示了 Syslog 输入插件收集的示例指标数据:
name | 标记 | timestamp | fields |
---|---|---|---|
syslog | {"appname":"azsecmond","facility":"user","host":"adx-linux-vm","hostname":"adx-linux-vm","severity":"info"} | 2021-09-20T14:36:44Z | {"facility_code":1,"message":" 2021/09/20 14:36:44.890110 Failed to connect to mdsd: dial unix /var/run/mdsd/default_djson.socket: connect: no such file or directory","procid":"2184","severity_code":6,"timestamp":"1632148604890477000","version":1} |
syslog | {"appname":"CRON","facility":"authpriv","host":"adx-linux-vm","hostname":"adx-linux-vm","severity":"info"} | 2021-09-20T14:37:01Z | {"facility_code":10,"message":" pam_unix(cron:session): session opened for user root by (uid=0)","procid":"26446","severity_code":6,"timestamp":"1632148621120781000","version":1} |
可通过多种方式使用 extend 运算符或 bag_unpack() 插件平展动态列。 在更新策略 Transform_TargetTableName() 函数中可以使用其中任一方式。
使用 extend 运算符:建议使用此方法,因为它更快且可靠。 即使架构发生更改,也不会中断查询或仪表板。
Tablename | extend facility_code=toint(fields.facility_code), message=tostring(fields.message), procid= tolong(fields.procid), severity_code=toint(fields.severity_code), SysLogTimestamp=unixtime_nanoseconds_todatetime(tolong(fields.timestamp)), version= todouble(fields.version), appname= tostring(tags.appname), facility= tostring(tags.facility),host= tostring(tags.host), hostname=tostring(tags.hostname), severity=tostring(tags.severity) | project-away fields, tags
使用 bag_unpack() 插件:此方法会将动态类型列解压缩。 更改源架构可能会在动态扩展列时导致问题。
Tablename | evaluate bag_unpack(tags, columnsConflict='replace_source') | evaluate bag_unpack(fields, columnsConflict='replace_source')