Entender URIs
Você pode armazenar dados em seu dispositivo local ou em algum lugar na nuvem. Onde quer que você armazene seus dados, você deseja acessar os dados ao treinar modelos de machine learning. Para localizar e acessar dados no Azure Machine Learning, você pode usar URIs (Uniform Resource Identifiers).
Compreender URIs
Um URI faz referência à localização de seus dados. Para que o Azure Machine Learning se conecte aos seus dados, você precisa prefixar o URI com o protocolo apropriado. Há três protocolos comuns ao trabalhar com dados no contexto do Azure Machine Learning:
http(s)
: use para armazenamentos de dados públicos ou privados em um Armazenamento de Blobs do Azure ou local de http(s) disponível(is) publicamente.abfs(s)
: use para armazenamentos de dados em um Azure Data Lake Storage Gen 2.azureml
: use para dados armazenados em um armazenamento de dados.
Por exemplo, você pode criar um Armazenamento de Blobs do Azure no Azure. Para armazenar dados, você cria um contêiner chamado training-data
. Dentro do contêiner, você cria uma pasta datastore-path
. Dentro da pasta, você armazena o arquivo CSV diabetes.csv
.
Quando quiser acessar os dados do workspace do Azure Machine Learning, você poderá usar o caminho para a pasta ou arquivo diretamente. Quando você quiser se conectar diretamente à pasta ou ao arquivo, poderá usar o protocolo http(s)
. Se o contêiner estiver definido como privado, você precisará fornecer algum tipo de autenticação para obter acesso aos dados, como uma SAS (Assinatura de Acesso Compartilhado).
Ao criar um armazenamento de dados no Azure Machine Learning, você armazenará as informações de conexão e autenticação no workspace. Para acessar os dados no contêiner, você poderá usar o protocolo azureml
.
Dica
Um armazenamento de dados é uma referência a uma conta de armazenamento existente no Azure. Portanto, quando você se refere aos dados armazenados em um armazenamento de dados, pode estar se referindo aos dados que estão sendo armazenados em um Armazenamento de Blobs do Azure ou Azure Data Lake Storage. No entanto, ao se referir ao armazenamento de dados, você não precisará se autenticar, pois as informações de conexão armazenadas com o armazenamento de dados serão usadas pelo Azure Machine Learning.
É considerada uma melhor prática evitar dados confidenciais em seu código, como informações de autenticação. Portanto, sempre que possível, você deve trabalhar com armazenamentos de dados e ativos de dados no Azure Machine Learning. No entanto, durante a experimentação em notebooks, talvez você queira se conectar diretamente a um local de armazenamento para evitar sobrecarga desnecessária.