Compartilhar via


Noções básicas sobre entidades de nível superior em repositório de recursos gerenciados

Este documento descreve as entidades de nível superior no repositório de recursos gerenciados.

Diagrama descrevendo os principais componentes do repositório de recursos gerenciados.

Para obter mais informações sobre o repositório de recursos gerenciados, acesse o recurso O que é repositório de recursos gerenciados?.

Repositório de recursos

Você pode criar e gerenciar conjuntos de recursos por meio de um repositório de recursos. Um conjunto de recursos é uma coleção de recursos. Opcionalmente, você pode associar um repositório de materialização (conexão de repositório offline) a um repositório de recursos, para pré-computar e persistir os recursos de forma regular. Essa abordagem pode tornar a recuperação de recursos durante o treinamento ou a inferência mais rápida e confiável.

Para obter mais informações sobre a configuração, acesse o recurso Esquema YAML do repositório de recursos da CLI (v2).

Entidades

Uma entidade encapsula as colunas de índice para entidades lógicas em uma empresa. Os exemplos de entidades incluem entidade de conta, entidade do cliente etc. As entidades ajudam a impor, como melhor prática, o uso das mesmas definições de coluna de índice entre os conjuntos de recursos que usam as mesmas entidades lógicas.

Normalmente, as entidades são criadas uma vez e reutilizadas em conjuntos de recursos. As entidades são versões.

Para obter mais informações sobre a configuração, acesse o recurso Esquema YAML da entidade de recursos da CLI (v2).

Especificação e ativo do conjunto de recursos

Um conjunto de recursos é uma coleção de recursos gerados pela aplicação de uma transformação nos dados do sistema de origem. Os conjuntos de recursos encapsulam uma origem, a função de transformação e as configurações de materialização. Atualmente, damos suporte ao código de transformação de recursos do PySpark.

Primeiro, crie uma especificação de conjunto de recursos. Uma especificação do conjunto de recursos é uma definição de conjunto de recursos independente que você pode desenvolver e testar localmente.

Uma especificação de conjunto de recursos normalmente consiste nesses parâmetros:

  • source: para quais origens esse recurso é mapeado
  • transformation (opcional): a lógica de transformação, aplicada aos dados de origem, para criar recursos. Em nosso caso, usamos o Spark como a computação com suporte.
  • Nomes das colunas que representam o index_columns e o timestamp_column: isso é necessário quando os usuários tentam unir dados de recursos com dados de observação (mais sobre isso posteriormente)
  • materialization_settings(opcional): obrigatório se você quiser armazenar em cache os valores de recurso em um repositório de materialização para recuperação eficiente.

Após você desenvolver e testar a especificação do conjunto de recursos em seu ambiente local/desenvolvimento, poderá registrar a especificação como um ativo de conjunto de recursos com o repositório de recursos. O ativo do conjunto de recursos fornece recursos gerenciados, por exemplo, controle de versão e materialização.

Para obter mais informações sobre a especificação YAML do conjunto de recursos, acesse o recurso Esquema YAML da especificação do conjunto de recursos da CLI (v2).

Especificação de recuperação de recursos

Uma especificação de recuperação de recursos é uma definição portátil de uma lista de recursos associada a um modelo. Ela pode ajudar a simplificar o desenvolvimento e a operacionalização do modelo de machine learning. Uma especificação de recuperação de recursos é normalmente uma entrada para o pipeline de treinamento. Ela ajuda a gerar os dados de treinamento. Você pode empacotá-la com o modelo. Além disso, a etapa de inferência a usa para pesquisar os recursos. Ela integra todas as fases do ciclo de vida do aprendizado de máquina. As alterações no pipeline de treinamento e inferência podem ser minimizadas à medida que você experimenta e implanta.

O uso de uma especificação de recuperação de recursos e o componente de recuperação de recursos interno são opcionais. Você pode usar diretamente a API get_offline_features().

Para obter mais informações sobre a especificação YAML de recuperação de recursos, acesse o recurso Esquema YAML da especificação de recuperação de recursos da CLI (v2).

Próximas etapas