Escolher como fornecer dados para fluxos de trabalho de aprendizado de máquina

Concluído

Para acessar dados ao treinar modelos de machine learning, você desejará atender aos dados armazenando-os em um serviço de dados de nuvem. Ao armazenar dados separadamente de sua computação, você minimizará os custos e será mais flexível.

Separar a computação do armazenamento

Um dos benefícios da nuvem é a capacidade de escalar ou reduzir verticalmente a computação de acordo com suas demandas. Além disso, você pode desligar a computação quando não precisar dela e reiniciá-la quando quiser usá-la novamente.

Especialmente ao treinar modelos de machine learning, você terá períodos de tempo durante os quais precisará de muito poder de computação e outros em que não precisará. Ao desligar a computação usada para treinar modelos de machine learning, você deseja garantir que seus dados não sejam perdidos e ainda possam ser acessados para outras finalidades (como relatórios).

Portanto, é uma prática recomendada armazenar seus dados em uma ferramenta, que é separada de outra ferramenta que você usa para treinar seus modelos. Qual ferramenta ou serviço é melhor armazenar seus dados depende dos dados que você tem e do serviço que você usa para treinamento de modelo.

Armazenar dados para cargas de trabalho de treinamento de modelo

Quando você usa o Azure Machine Learning, o Azure Databricks ou o Azure Synapse Analytics para treinamento de modelo, há três opções comuns para armazenar dados, que são facilmente conectados aos três serviços:

  • Armazenamento de Blobs do Azure: opção mais barata para armazenar dados como dados não estruturados. Ideal para armazenar arquivos como imagens, texto e JSON. Geralmente também usado para armazenar dados como arquivos CSV, pois os cientistas de dados preferem trabalhar com arquivos CSV.
  • Azure Data Lake Storage (Gen 2): uma versão mais avançada do Azure Blob Storage. Também armazena arquivos (por exemplo, arquivos CSV e imagens) como dados não estruturados. Um data lake também implementa um namespace hierárquico, o que significa que é mais fácil dar a alguém acesso a um arquivo ou pasta específico. A capacidade de armazenamento é praticamente ilimitada e, portanto, ideal para armazenar dados grandes.
  • Banco de dados SQL do Azure: armazena dados como dados estruturados. Os dados são lidos como uma tabela e o esquema é definido quando uma tabela no banco de dados é criada. Ideal para dados que não mudam ao longo do tempo.

Observação

Há outros serviços do Azure para armazenar e fornecer dados para serviços como Azure Machine Learning, Azure Databricks e Azure Synapse Analytics. As três opções de armazenamento listadas aqui são as soluções de armazenamento de dados mais usadas em combinação com o aprendizado de máquina, especialmente para novos projetos. Para saber mais sobre quando usar qual opção, explore este guia sobre armazenamentos de dados do Azure.

Ao armazenar seus dados em uma dessas soluções de armazenamento do Azure, você pode facilmente fornecer os dados para qualquer serviço do Azure usado para cargas de trabalho de machine learning. Para carregar os dados em uma dessas soluções de armazenamento, você pode configurar um pipeline para extrair, transformar e carregar os dados.