Notas sobre a versão da engenharia de recursos do Databricks e do armazenamento de recursos do espaço de trabalho herdado
Esta página lista as versões do cliente Engenharia de Recursos do Databricks no Catálogo do Unity e do Repositório de Recursos do Workspace do Databricks. Ambos os clientes estão disponíveis no PyPI como databricks-feature-engineering.
As bibliotecas são usadas para:
- Criar, ler e gravar tabelas de recursos.
- Treinar modelos em dados de recursos.
- Publicar tabelas de recursos em lojas online por serviço em tempo real.
Para obter a documentação de uso, consulte o Repositório de Recursos do Databricks. Para obter a documentação da API do Python, confira API do Python.
O cliente de Engenharia de Recursos no Catálogo do Unity funciona para recursos e tabelas de recursos no Catálogo do Unity. O cliente do Repositório de Recursos do Workspace funciona para recursos e tabelas de recursos no Repositório de Recursos do Workspace. Ambos os clientes vêm pré-instalados no Databricks Runtime para Machine Learning. Eles também podem ser executados no Databricks Runtime após a instalação de databricks-feature-engineering
no PyPI (pip install databricks-feature-engineering
). Somente em testes de unidade, os dois clientes podem ser usados localmente ou em ambientes de CI/CD.
Para obter uma tabela mostrando a compatibilidade de versão do cliente com versões do Databricks Runtime e do Databricks Runtime ML, confira Matriz de compatibilidade da Engenharia de Recursos. Versões mais antigas do cliente do Repositório de Recursos do Workspace do Databricks estão disponíveis no PyPI como databricks-feature-store.
databricks-feature-engineering 0.7.0
- Agora, determinadas exibições no Catálogo do Unity podem ser usadas como tabelas de recursos para treinamento e avaliação de modelos offline. Confira Ler de uma tabela de recursos no Catálogo do Unity.
- Agora, os conjuntos de treinamento podem ser criados com buscas de recursos ou uma especificação de recursos. Confira a referência de SDK do Python.
databricks-feature-engineering 0.6.0
- Agora há suporte para a execução de junções pontuais com o Spark nativo, além do suporte existente com o Tempo. Muito obrigado a Semyon Sinchenko por sugerir a ideia!
StructType
agora tem suporte como um tipo de dados PySpark.StructType
não tem suporte para serviços online.write_table
agora dá suporte à gravação em tabelas que têm clusterização líquida habilitada.- O parâmetro
timeseries_columns
paracreate_table
foi renomeado paratimeseries_column
. Os fluxos de trabalho existentes podem continuar a usar o parâmetrotimeseries_columns
. score_batch
agora dá suporte para o parâmetroenv_manager
. Consulte a documentação do MLflow para obter mais informações.
databricks-feature-engineering 0.5.0
- Nova API
update_feature_spec
emdatabricks-feature-engineering
que permite que os usuários atualizem o proprietário de um FeatureSpec no Catálogo do Unity.
databricks-feature-engineering 0.4.0
- Pequenas correções de bug e aprimoramentos.
engenharia de recursos de databricks 0.3.0
log_model
agora usa o novo pacote databricks-feature-lookup PyPI, que inclui melhorias de desempenho para o serviço de modelo online.
databricks-feature-store 0.17.0
databricks-feature-store
foi preterido. Todos os módulos existentes neste pacote estão disponíveis nodatabricks-feature-engineering
versão 0.2.0 e superior. Para obter detalhes, confira API do Python.
databricks-feature-engineering 0.2.0
databricks-feature-engineering
agora contém todos os módulos dedatabricks-feature-store
. Para obter detalhes, confira API do Python.
databricks-feature-store 0.16.3
- Corrige o bug de tempo limite ao usar o AutoML com tabelas de recursos.
databricks-feature-engineering 0.1.3
- Pequenos aprimoramentos no UpgradeClient.
databricks-feature-store 0.16.2
- Agora você pode criar pontos de extremidade do Serviço de Recurso e Função. Para obter detalhes, consulte Serviço de Recurso e Função.
databricks-feature-store 0.16.1
- Pequenas correções de bug e aprimoramentos.
databricks-feature-engineering 0.1.2 e databricks-feature-store 0.16.0
- Pequenas correções de bug e aprimoramentos.
- Correção de URLs de linhagem de trabalho incorretas registradas com determinadas configurações de espaço de trabalho.
databricks-feature-engineering 0.1.1
- Pequenas correções de bug e aprimoramentos.
databricks-feature-engineering 0.1.0
- Lançamento GA do cliente da Engenharia de Recursos no Catálogo do Unity para Python no PyPI
databricks-feature-store 0.15.1
- Pequenas correções de bug e aprimoramentos.
databricks-feature-store 0.15.0
- Agora você pode inferir e registrar automaticamente um exemplo de entrada ao registrar um modelo em log. Para fazer isso, defina
infer_model_example
comoTrue
quando você chamarlog_model
. O exemplo é baseado nos dados de treinamento especificados no parâmetrotraining_set
.
databricks-feature-store 0.14.2
- Corrija o bug na publicação no Aurora MySQL do MariaDB Connector/J >=2.7.5.
databricks-feature-store 0.14.1
- Pequenas correções de bug e aprimoramentos.
databricks-feature-store 0.14.0
A partir da versão 0.14.0, você deve especificar as colunas da chave de registro de data e hora no argumento primary_keys
. As chaves de registro de data e hora fazem parte das "chaves primárias" que identificam exclusivamente cada linha na tabela de recursos. Como outras colunas de chave primária, as colunas de chave de carimbo de data/hora não podem conter valores NULOS.
No exemplo a seguir, o DataFrame user_features_df
contém as seguintes colunas: user_id
, ts
, purchases_30d
e is_free_trial_active
.
0.14.0 e superior
fs = FeatureStoreClient()
fs.create_table(
name="ads_team.user_features",
primary_keys=["user_id", "ts"],
timestamp_keys="ts",
features_df=user_features_df,
)
0.13.1 e inferior
fs = FeatureStoreClient()
fs.create_table(
name="ads_team.user_features",
primary_keys="user_id",
timestamp_keys="ts",
features_df=user_features_df,
)
databricks-feature-store 0.13.1
- Pequenas correções de bug e aprimoramentos.
databricks-feature-store 0.13.0
- A versão mínima necessária do
mlflow-skinny
agora é 2.4.0. - A criação de um conjunto de treinamento falhará se o DataFrame fornecido não contiver todas as chaves de pesquisa necessárias.
- Ao registrar em log um modelo que usa tabelas de recursos no Catálogo do Unity, uma assinatura do MLflow é registrada automaticamente com o modelo.
databricks-feature-store 0.12.0
- Agora você pode excluir um repositório online usando a API
drop_online_table
.
databricks-feature-store 0.11.0
- Em workspaces habilitados para Unity Catalog, agora você pode publicar tabelas de recursos do workspace e do Unity Catalog em repositórios online do Cosmos DB. Isso requer o Databricks Runtime 13.0 ML ou posterior.
databricks-feature-store 0.10.0
- Pequenas correções de bug e aprimoramentos.
databricks-feature-store 0.9.0
- Pequenas correções de bug e aprimoramentos.
databricks-feature-store 0.8.0
- Pequenas correções de bug e aprimoramentos.
databricks-feature-store 0.7.1
- Adicione
flask
como dependência para corrigir o problema de dependência ausente ao pontuar modelos comscore_batch
.
databricks-feature-store 0.7.0
- Pequenas correções de bug e aprimoramentos.
databricks-feature-store 0.6.1
- Versão pública inicial do cliente do Repositório de Recursos do Databricks para o PyPI.