Compartilhar via


Notas sobre a versão da engenharia de recursos do Databricks e do armazenamento de recursos do espaço de trabalho herdado

Esta página lista as versões do cliente Engenharia de Recursos do Databricks no Catálogo do Unity e do Repositório de Recursos do Workspace do Databricks. Ambos os clientes estão disponíveis no PyPI como databricks-feature-engineering.

As bibliotecas são usadas para:

  • Criar, ler e gravar tabelas de recursos.
  • Treinar modelos em dados de recursos.
  • Publicar tabelas de recursos em lojas online por serviço em tempo real.

Para obter a documentação de uso, consulte o Repositório de Recursos do Databricks. Para obter a documentação da API do Python, confira API do Python.

O cliente de Engenharia de Recursos no Catálogo do Unity funciona para recursos e tabelas de recursos no Catálogo do Unity. O cliente do Repositório de Recursos do Workspace funciona para recursos e tabelas de recursos no Repositório de Recursos do Workspace. Ambos os clientes vêm pré-instalados no Databricks Runtime para Machine Learning. Eles também podem ser executados no Databricks Runtime após a instalação de databricks-feature-engineering no PyPI (pip install databricks-feature-engineering). Somente em testes de unidade, os dois clientes podem ser usados localmente ou em ambientes de CI/CD.

Para obter uma tabela mostrando a compatibilidade de versão do cliente com versões do Databricks Runtime e do Databricks Runtime ML, confira Matriz de compatibilidade da Engenharia de Recursos. Versões mais antigas do cliente do Repositório de Recursos do Workspace do Databricks estão disponíveis no PyPI como databricks-feature-store.

databricks-feature-engineering 0.7.0

databricks-feature-engineering 0.6.0

  • Agora há suporte para a execução de junções pontuais com o Spark nativo, além do suporte existente com o Tempo. Muito obrigado a Semyon Sinchenko por sugerir a ideia!
  • StructType agora tem suporte como um tipo de dados PySpark. StructType não tem suporte para serviços online.
  • write_table agora dá suporte à gravação em tabelas que têm clusterização líquida habilitada.
  • O parâmetro timeseries_columns para create_table foi renomeado para timeseries_column. Os fluxos de trabalho existentes podem continuar a usar o parâmetro timeseries_columns.
  • score_batch agora dá suporte para o parâmetro env_manager. Consulte a documentação do MLflow para obter mais informações.

databricks-feature-engineering 0.5.0

  • Nova API update_feature_spec em databricks-feature-engineering que permite que os usuários atualizem o proprietário de um FeatureSpec no Catálogo do Unity.

databricks-feature-engineering 0.4.0

  • Pequenas correções de bug e aprimoramentos.

engenharia de recursos de databricks 0.3.0

  • log_model agora usa o novo pacote databricks-feature-lookup PyPI, que inclui melhorias de desempenho para o serviço de modelo online.

databricks-feature-store 0.17.0

  • databricks-feature-store foi preterido. Todos os módulos existentes neste pacote estão disponíveis no databricks-feature-engineering versão 0.2.0 e superior. Para obter detalhes, confira API do Python.

databricks-feature-engineering 0.2.0

  • databricks-feature-engineering agora contém todos os módulos de databricks-feature-store. Para obter detalhes, confira API do Python.

databricks-feature-store 0.16.3

  • Corrige o bug de tempo limite ao usar o AutoML com tabelas de recursos.

databricks-feature-engineering 0.1.3

  • Pequenos aprimoramentos no UpgradeClient.

databricks-feature-store 0.16.2

databricks-feature-store 0.16.1

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-engineering 0.1.2 e databricks-feature-store 0.16.0

  • Pequenas correções de bug e aprimoramentos.
    • Correção de URLs de linhagem de trabalho incorretas registradas com determinadas configurações de espaço de trabalho.

databricks-feature-engineering 0.1.1

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-engineering 0.1.0

  • Lançamento GA do cliente da Engenharia de Recursos no Catálogo do Unity para Python no PyPI

databricks-feature-store 0.15.1

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.15.0

  • Agora você pode inferir e registrar automaticamente um exemplo de entrada ao registrar um modelo em log. Para fazer isso, defina infer_model_example como True quando você chamar log_model. O exemplo é baseado nos dados de treinamento especificados no parâmetro training_set.

databricks-feature-store 0.14.2

  • Corrija o bug na publicação no Aurora MySQL do MariaDB Connector/J >=2.7.5.

databricks-feature-store 0.14.1

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.14.0

A partir da versão 0.14.0, você deve especificar as colunas da chave de registro de data e hora no argumento primary_keys. As chaves de registro de data e hora fazem parte das "chaves primárias" que identificam exclusivamente cada linha na tabela de recursos. Como outras colunas de chave primária, as colunas de chave de carimbo de data/hora não podem conter valores NULOS.

No exemplo a seguir, o DataFrame user_features_df contém as seguintes colunas: user_id, ts, purchases_30d e is_free_trial_active.

0.14.0 e superior

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)

0.13.1 e inferior

fs = FeatureStoreClient()

fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)

databricks-feature-store 0.13.1

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.13.0

  • A versão mínima necessária do mlflow-skinny agora é 2.4.0.
  • A criação de um conjunto de treinamento falhará se o DataFrame fornecido não contiver todas as chaves de pesquisa necessárias.
  • Ao registrar em log um modelo que usa tabelas de recursos no Catálogo do Unity, uma assinatura do MLflow é registrada automaticamente com o modelo.

databricks-feature-store 0.12.0

  • Agora você pode excluir um repositório online usando a API drop_online_table.

databricks-feature-store 0.11.0

  • Em workspaces habilitados para Unity Catalog, agora você pode publicar tabelas de recursos do workspace e do Unity Catalog em repositórios online do Cosmos DB. Isso requer o Databricks Runtime 13.0 ML ou posterior.

databricks-feature-store 0.10.0

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.9.0

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.8.0

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.7.1

  • Adicione flask como dependência para corrigir o problema de dependência ausente ao pontuar modelos com score_batch.

databricks-feature-store 0.7.0

  • Pequenas correções de bug e aprimoramentos.

databricks-feature-store 0.6.1

  • Versão pública inicial do cliente do Repositório de Recursos do Databricks para o PyPI.