Escolha como fornecer dados para fluxos de trabalho de aprendizado de máquina
Para acessar dados ao treinar modelos de aprendizado de máquina, convém servir os dados armazenando-os em um serviço de dados na nuvem. Ao armazenar dados separadamente da sua computação, você minimizará os custos e será mais flexível.
Separe a computação do armazenamento
Um dos benefícios da nuvem é a capacidade de escalar a computação para cima ou para baixo de acordo com suas demandas. Além disso, você pode desligar a computação quando não precisar dela e reiniciá-la quando quiser usá-la novamente.
Especialmente ao treinar modelos de aprendizado de máquina, você terá períodos de tempo durante os quais precisará de muito poder de computação e momentos em que não precisará. Ao desligar a computação que você usa para treinar modelos de aprendizado de máquina, você deseja garantir que seus dados não sejam perdidos e ainda possam ser acessados para outros fins (como relatórios).
Portanto, é uma prática recomendada armazenar seus dados em uma ferramenta, que é separada de outra ferramenta que você usa para treinar seus modelos. Qual ferramenta ou serviço é melhor para armazenar seus dados depende dos dados que você tem e do serviço que você usa para treinamento de modelo.
Armazenar dados para cargas de trabalho de treinamento de modelo
Quando você usa o Azure Machine Learning, o Azure Databricks ou o Azure Synapse Analytics para treinamento de modelos, há três opções comuns para armazenar dados, que são facilmente conectadas aos três serviços:
- Armazenamento de Blobs do Azure: opção mais barata para armazenar dados como dados não estruturados . Ideal para armazenar arquivos como imagens, texto e JSON. Muitas vezes também usado para armazenar dados como arquivos CSV, como cientistas de dados preferem trabalhar com arquivos CSV.
- Azure Data Lake Storage (Gen 2): Uma versão mais avançada do Armazenamento de Blobs do Azure. Também armazena arquivos como arquivos CSV e imagens como dados não estruturados . Um data lake também implementa um namespace hierárquico, o que significa que é mais fácil dar a alguém acesso a um arquivo ou pasta específica. A capacidade de armazenamento é virtualmente ilimitada, por isso é ideal para armazenar grandes dados.
- Banco de Dados SQL do Azure: armazena dados como dados estruturados . Os dados são lidos como uma tabela e o esquema é definido quando uma tabela no banco de dados é criada. Ideal para dados que não mudam ao longo do tempo.
Nota
Existem outros serviços do Azure para armazenar e servir dados para serviços como o Azure Machine Learning, o Azure Databricks e o Azure Synapse Analytics. As três opções de armazenamento listadas aqui são as soluções de armazenamento de dados mais usadas em combinação com o aprendizado de máquina, especialmente para novos projetos. Para saber quando usar qual opção, explore este guia em armazenamentos de dados do Azure.
Ao armazenar seus dados em uma dessas soluções de armazenamento do Azure, você pode facilmente fornecer os dados para qualquer serviço do Azure usado para cargas de trabalho de aprendizado de máquina. Para carregar os dados em uma dessas soluções de armazenamento, você pode configurar um pipeline para extrair, transformar e carregar os dados.