Identificación de los recursos de Azure Machine Learning

Completado

En Azure Machine Learning, los recursos hacen referencia a la infraestructura que se necesita para ejecutar un flujo de trabajo de aprendizaje automático. Lo ideal es que alguien, como un administrador, cree y administre los recursos.

Los recursos de Azure Machine Learning incluyen lo siguiente:

  • El área de trabajo
  • Recursos de proceso
  • Almacenes de datos

Creación y administración del área de trabajo

El área de trabajo es el recurso de nivel superior de Azure Machine Learning. Los científicos de datos necesitan acceso al área de trabajo para entrenar modelos y llevar un seguimiento de ellos y para implementar los modelos en puntos de conexión.

Sin embargo, debe tener cuidado con quién tiene acceso total al área de trabajo. Junto a referencias a recursos de proceso y almacenes de datos, puede encontrar todos los registros, métricas, salidas, modelos e instantáneas del código en el área de trabajo.

Creación y administración de recursos de proceso

Uno de los recursos más importantes que necesita al entrenar o implementar un modelo es el proceso. Existen cinco tipos de proceso en el área de trabajo de Azure Machine Learning:

  • Instancias de proceso: Similar a una máquina virtual en la nube, bajo la administración del área de trabajo. Ideal para usar como entorno de desarrollo para ejecutar cuadernos (Jupyter).
  • Clústeres de proceso: Clústeres a petición de nodos de ejecución de CPU o GPU en la nube, bajo la administración del área de trabajo. Ideal para las cargas de trabajo de producción a medida que se escalan automáticamente en función de sus necesidades.
  • Clústeres de Kubernetes: Le permite crear o adjuntar un clúster de Azure Kubernetes Service (AKS). Ideal para implementar modelos de aprendizaje automático entrenados en escenarios de producción.
  • Procesos asociados: Le permite asociar otros recursos de proceso de Azure con el área de trabajo, como Azure Databricks o grupos de Spark de Synapse.
  • Proceso sin servidor: Un proceso totalmente administrado a petición que puede usar para los trabajos de entrenamiento.

Nota:

Como Azure Machine Learning crea y administra el proceso sin servidor automáticamente, no aparece en la página de proceso de Studio. Más información sobre cómo usar el proceso sin servidor para el entrenamiento del modelo

Si bien el recurso más importante al trabajar con cargas de trabajo de aprendizaje automático es el proceso, también puede ser el más implica más costos. Por lo tanto, un procedimiento recomendado es permitir que solo los administradores creen y administren los recursos de proceso. No se debe permitir que los científicos de datos editen el proceso, sino que solo usen el disponible para ejecutar sus cargas de trabajo.

Creación y administración de almacenes de datos

El área de trabajo misma no almacena ningún dato. En su lugar, todos los datos se almacenan en almacenes de datos, que son referencias a los servicios de datos de Azure. La información de conexión a un servicio de datos que un almacén de datos representa se almacena en Azure Key Vault.

Cuando se crea un área de trabajo, se crea una cuenta de Azure Storage y se conecta automáticamente al área de trabajo. Como resultado, ya tendrá cuatro almacenes de datos agregados al área de trabajo:

  • workspaceartifactstore: Se conecta al contenedor azureml de la cuenta de Azure Storage creada con el área de trabajo. Se usa para almacenar los registros de proceso y experimento al ejecutar trabajos.
  • workspaceworkingdirectory: Se conecta al recurso compartido de archivos de la cuenta de Azure Storage creada con el área de trabajo que usa la sección Notebooks de Studio. Siempre que cargue archivos o carpetas para acceder desde una instancia de proceso, los archivos o carpetas se cargan en este recurso compartido de archivos.
  • workspaceblobstore: se conecta a la instancia de Blob Storage de la cuenta de Azure Storage que se creó con el área de trabajo. Específicamente el contenedor de azureml-blobstore-.... Establezca como almacén de datos predeterminado, lo que significa que cada vez que cree un recurso de datos y cargue datos, almacene los datos en este contenedor.
  • workspacefilestore: se conecta al recurso compartido de archivos de la cuenta de Azure Storage que se creó con el área de trabajo. En concreto, el recurso compartido de archivos azureml-filestore-....

Además, puede crear almacenes de datos para conectarse a otros servicios de datos de Azure. Normalmente, los almacenes de datos se conectan a una cuenta de Azure Storage o Azure Data Lake Storage (Gen2), ya que esos servicios de datos se usan con más frecuencia en proyectos de ciencia de datos.