Databricks 特征工程和旧版工作区特征存储的发行说明
此页面列出了 Unity Catalog 中的 Databricks 特征工程客户端和 Databricks 工作区特征存储客户端的版本。 这两个客户端在 PyPI 上都作为 databricks-feature-engineering 可用。
相关库用于:
- 创建、读取和写入功能表。
- 基于特征数据训练模型。
- 将功能表发布到在线应用商店,以便提供实时服务。
有关使用情况文档,请参阅 Databricks 特征存储。 有关 Python API 文档,请参阅 Python API。
Unity Catalog 中的特征工程客户端适用于 Unity Catalog 中的特征和特征表。 工作区特征存储客户端适用于工作区特征存储中的特征和特征表。 这两个客户端都预安装在用于机器学习的 Databricks Runtime 中。 通过 PyPI (pip install databricks-feature-engineering
) 安装 databricks-feature-engineering
后,它们也可在 Databricks Runtime 上运行。 如果用于单元测试,两个客户端均可以在本地或 CI/CD 环境中使用。
有关提供与 Databricks Runtime 和 Databricks Runtime ML 版本的客户端版本兼容性的表,请参阅特征工程兼容性对照表。 旧版 Databricks 工作区特征存储客户端在 PyPI 上作为 databricks-feature-store 提供。
databricks-feature-engineering 0.7.0
- Unity Catalog 中的某些视图现在可用作脱机模型训练和评估的功能表。 请参阅从 Unity Catalog 中的特征表读取。
- 现在可以使用特征查找或特征规格创建训练集。请参阅 Python SDK 参考。
databricks-feature-engineering 0.6.0
- 除了现有的 Tempo 支持外,现在还支持使用本机 Spark 运行时间点联接。 非常感谢 Semyon Sinchenko 提议这个想法!
- 现在支持将
StructType
用作 PySpark 数据类型。 联机服务不支持StructType
。 write_table
现在支持写入启用了 Liquid 聚类的表。create_table
的timeseries_columns
参数已重命名为timeseries_column
。 现有工作流可以继续使用timeseries_columns
参数。score_batch
现在支持env_manager
参数。 有关详细信息,请参阅 MLflow 文档。
databricks-feature-engineering 0.5.0
- 通过
databricks-feature-engineering
中新的 APIupdate_feature_spec
,用户可更新 Unity Catalog 中 FeatureSpec 的所有者。
databricks-feature-engineering 0.4.0
- 小的 Bug 修复与改进。
databricks-feature-engineering 0.3.0
log_model
现在使用新的 databricks-feature-lookup PyPI 包,其中包括对在线模型服务的性能改进。
databricks-feature-store 0.17.0
databricks-feature-store
已弃用。 此包中的所有现有模块均在databricks-feature-engineering
0.2.0 及更高版本中提供。 有关详细信息,请参阅 Python API。
databricks-feature-engineering 0.2.0
databricks-feature-engineering
现在包含databricks-feature-store
中的所有模块。 有关详细信息,请参阅 Python API。
databricks-feature-store 0.16.3
- 修复了将 AutoML 与功能表配合使用时的超时 bug。
databricks-feature-engineering 0.1.3
- UpgradeClient 中的小幅改进。
databricks-feature-store 0.16.2
- 现在可以创建特性和功能服务终结点。 有关详细信息,请参阅特性和功能服务。
databricks-feature-store 0.16.1
- 小的 Bug 修复与改进。
databricks-feature-engineering 0.1.2 和 databricks-feature-store 0.16.0
- 小的 Bug 修复与改进。
- 修复了使用某些工作区设置记录的不正确的作业世系 URL。
databricks-feature-engineering 0.1.1
- 小的 Bug 修复与改进。
databricks-feature-engineering 0.1.0
- PyPI 上现正式推出 Unity Catalog 中的特征工程 Python 客户端
databricks-feature-store 0.15.1
- 小的 Bug 修复与改进。
databricks-feature-store 0.15.0
- 现在可以在记录模型时自动推断和记录输入示例。 要执行此操作,请在调用
log_model
时将infer_model_example
设置为True
。 此示例基于training_set
参数中指定的训练数据。
databricks-feature-store 0.14.2
- 修复了从 MariaDB 连接器/J >=2.7.5 发布到 Aurora MySQL 时出现的 bug。
databricks-feature-store 0.14.1
- 小的 Bug 修复与改进。
databricks-feature-store 0.14.0
从 0.14.0 开始,必须在 primary_keys
参数中指定时间戳键列。 时间戳键是“主键”的一部分,用于唯一标识特征表中的每一行。 与其他主键列一样,时间戳键列不能包含 NULL 值。
在以下示例中,DataFrame user_features_df
包含以下列:user_id
、ts
、 purchases_30d
和 is_free_trial_active
。
0.14.0 及更高版本
fs = FeatureStoreClient()
fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)
0.13.1 及更低版本
fs = FeatureStoreClient()
fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)
databricks-feature-store 0.13.1
- 小的 Bug 修复与改进。
databricks-feature-store 0.13.0
- 现在所需的最低
mlflow-skinny
版本是 2.4.0。 - 如果提供的数据帧不包含所有必需的查找键,则创建训练集会失败。
- 在 Unity Catalog 中记录使用特征表的模型时,会自动使用模型记录 MLflow 签名。
databricks-feature-store 0.12.0
- 现在可以使用
drop_online_table
API 删除联机存储。
databricks-feature-store 0.11.0
- 在已启用 Unity Catalog 的工作区中,现在可以将工作区和 Unity Catalog 特征表发布到 Cosmos DB 联机存储。 这需要 Databricks Runtime 13.0 ML 或更高版本。
databricks-feature-store 0.10.0
- 小的 Bug 修复与改进。
databricks-feature-store 0.9.0
- 小的 Bug 修复与改进。
databricks-feature-store 0.8.0
- 小的 Bug 修复与改进。
databricks-feature-store 0.7.1
- 添加
flask
作为依赖项以修复使用score_batch
对模型评分时缺少依赖项的问题。
databricks-feature-store 0.7.0
- 小的 Bug 修复与改进。
databricks-feature-store 0.6.1
- PyPI 的 Databricks 特征存储客户端的初始公共版本。