Descripción de los URI

Completado

Puede almacenar datos en el dispositivo local o en algún lugar de la nube. Dondequiera que almacene los datos, querrá acceder a ellos al entrenar modelos de aprendizaje automático. Para buscar los datos en Azure Machine Learning y poder acceder a ellos, use identificadores uniformes de recursos (URI).

Descripción de los URI

Un URI hace referencia a la ubicación de los datos. Para que Azure Machine Learning se conecte a los datos, debe anexar al URI un prefijo con el protocolo adecuado. Hay tres protocolos comunes al trabajar con datos en el contexto de Azure Machine Learning:

Diagrama de distintos tipos de protocolos que Azure Machine Learning usa para conectarse a orígenes de datos externos.

  • http(s): se usa para almacenes de datos pública o privadamente en una ubicación http(s) de Azure Blob Storage o disponible públicamente.
  • abfs(s): se usa para almacenes de datos en una instancia de Azure Data Lake Storage Gen 2.
  • azureml: se usa para los datos almacenados en un almacén de datos.

Por ejemplo, puede crear una instancia de Azure Blob Storage en Azure. Para almacenar datos, crea un contenedor denominado training-data. Dentro del contenedor, crea una carpeta datastore-path. Dentro de la carpeta, almacena el archivo CSV diabetes.csv.

Captura de pantalla de los datos almacenados en una instancia de Azure Blob Storage.

Cuando quiera acceder a los datos desde el área de trabajo de Azure Machine Learning, puede usar la ruta de acceso a la carpeta o el archivo directamente. Cuando quiera conectarse directamente a la carpeta o al archivo, puede usar el protocolo http(s). Si el contenedor está establecido en privado, deberá proporcionar algún tipo de autenticación para obtener acceso a los datos, como una firma de acceso compartido (SAS).

Al crear un almacén de datos en Azure Machine Learning, almacenará la información de conexión y autenticación en el área de trabajo. A continuación, para acceder a los datos del contenedor, puede usar el protocolo azureml.

Sugerencia

Un almacén de datos es una referencia a una cuenta de almacenamiento existente en Azure. Por lo tanto, cuando se hace referencia a los datos almacenados en un almacén de datos, es posible que se haga referencia a los datos que se almacenan en Azure Blob Storage o Azure Data Lake Storage. Sin embargo, cuando se hace referencia al almacén de datos, no tendrá que autenticarse, ya que Azure Machine Learning usará la información de conexión almacenada con el almacén de datos.

Se considera un procedimiento recomendado para evitar cualquier dato confidencial en el código, como la información de autenticación. Por lo tanto, siempre que sea posible, debe trabajar con almacenes de datos y recursos de datos en Azure Machine Learning. Sin embargo, durante la experimentación en cuadernos, es posible que desee conectarse directamente a una ubicación de almacenamiento para evitar una sobrecarga innecesaria.