Compartir a través de


Procedimientos recomendados de grupo

En este artículo se explica qué son los grupos y cómo puede configurarlos mejor. Para obtener información sobre cómo crear un grupo, consulte Referencia de configuración del grupo.

Nota:

Si la carga de trabajo admite el proceso sin servidor, Databricks recomienda usar proceso sin servidor en lugar de grupos para aprovechar el proceso siempre activado y escalable. Véase Conexión a la computación sin servidor.

Consideraciones sobre el grupo

Tenga en cuenta lo siguiente al crear un grupo:

  • Cree grupos mediante tipos de instancia y entornos de ejecución de Azure Databricks basados en cargas de trabajo de destino.
  • Cuando sea posible, rellene los grupos con instancias de máquinas virtuales de acceso puntual para reducir los costos. Use solo grupos de acceso puntual como nodos de trabajo. El nodo del controlador debe usar instancias a petición.
  • Rellene grupos con instancias a petición para trabajos con tiempos de ejecución cortos y requisitos estrictos de tiempo de ejecución.
  • Use etiquetas de grupo y de clúster para administrar la facturación.
  • Rellene previamente los grupos para asegurarse de que las instancias estén disponibles cuando los clústeres las necesiten.

Crear grupos basados en cargas de trabajo

Puede minimizar el tiempo de adquisición de instancias mediante la creación de un grupo para cada tipo de instancia y de entorno de ejecución de Azure Databricks que la organización use normalmente. Por ejemplo, si la mayoría de los clústeres de ingeniería de datos usan el tipo de instancia A, los clústeres de ciencia de datos usan el tipo de instancia B y los clústeres de análisis usan el tipo de instancia C, cree un grupo con cada tipo de instancia.

Uso de grupos de instancias de acceso puntual

Si el nodo de controlador y los nodos de trabajo tienen requisitos diferentes, use grupos diferentes para cada uno.

Azure Databricks recomienda no usar instancias de acceso puntual para el nodo de controlador. Si usa un grupo de acceso puntual para el nodo de trabajo, seleccione un grupo a petición como tipo de controlador.

Configure los grupos para usar instancias a petición para trabajos con tiempos de ejecución cortos y requisitos estrictos de tiempo de ejecución. Use instancias a petición para evitar que las instancias adquiridas se pierdan a favor de un pujador mejor en el mercado de máquinas virtuales de acceso puntual.

Configure los grupos para que usen instancias de máquinas virtuales de acceso puntual para clústeres que admitan desarrollo interactivo o trabajos que prioricen el ahorro de costos en lugar de la confiabilidad.

Etiquetar grupos para administrar el coste y la facturación

El etiquetado de grupos en el centro de coste correcto le permite administrar el costo y los contracargos por uso. Puede usar varias etiquetas personalizadas para asociar varios centros de coste a un grupo. Sin embargo, es importante comprender cómo se propagan las etiquetas cuando se crea un clúster a partir de grupos. Las etiquetas de los grupos se propagan a las instancias del proveedor de nube subyacentes, pero las etiquetas del clúster no lo hacen. Aplique todas las etiquetas personalizadas necesarias para administrar el contracargo del costo de proceso del proveedor de nube al grupo.

Las etiquetas de grupo y las etiquetas de clúster se propagan a la facturación de Azure Databricks. Puede usar la combinación de etiquetas de clúster y de grupo para administrar el contracargo de unidades de Azure Databricks.

Para obtener más información, consulte el uso de atributos mediante etiquetas.

Configurar grupos para controlar el coste

Puede usar las siguientes opciones de configuración para ayudar a controlar el costo de los grupos:

  • Establece las instancias con mínimo de inactividad en 0 para evitar pagar por las instancias en ejecución que no están realizando ningún trabajo. El inconveniente es un posible aumento en el tiempo que un clúster necesita para adquirir una nueva instancia.
  • Establece la capacidad máxima en función del uso previsto. Esto establece el límite del número máximo de instancias usadas e inactivas en el pool. Si un trabajo o clúster solicita una instancia de un conjunto de recursos que ya está en su capacidad máxima, la solicitud falla y el clúster no adquiere más instancias. Por lo tanto, Databricks recomienda establecer la capacidad máxima solo si hay una restricción de cuota de instancias o presupuesto estricta.
  • Establece el tiempo de Idle Instance Auto Termination (Terminación automática de instancias inactivas) para proporcionar un búfer entre el momento en que se libera la instancia del clúster y el momento en que se elimina del grupo. Establezca esta opción en un período que le permita minimizar el costo y, al mismo tiempo, garantizar la disponibilidad de las instancias para los trabajos programados. Por ejemplo, el trabajo A está programado para ejecutarse a las 8:00 a.m. y tarda 40 minutos en completarse. El trabajo B está programado para ejecutarse a las 9:00 a.m. y tarda 30 minutos en completarse. Establezca el valor de la terminación automática de instancias inactivas en 20 minutos para asegurarse de que las instancias devueltas al grupo cuando se complete el trabajo A estén disponibles cuando se inicie el trabajo B. A menos que otro clúster las reclame, esas instancias finalizarán 20 minutos después de que finalice el trabajo B.

Rellenar grupos previamente

Para beneficiarse completamente de los grupos, puede rellenar previamente los grupos recién creados. Establezca las instancias con mínimo de inactividad en un valor mayor que cero en la configuración del grupo. Como alternativa, si sigue la recomendación de establecer este valor en cero, use un trabajo de inicio para asegurarse de que los grupos recién creados tengan instancias disponibles para que los clústeres accedan.

Con el enfoque de trabajo de inicio, programe un trabajo con requisitos de tiempo de ejecución flexibles para que se ejecute antes que los trabajos con requisitos de rendimiento más estrictos o antes de que los usuarios empiecen a usar clústeres interactivos. Una vez que finalice el trabajo, las instancias usadas por el trabajo se liberan de nuevo en el grupo. Establezca el valor de instancias con mínimo de inactividad en 0 y establezca el tiempo de Terminación automática de instancias inactivas en un valor lo suficientemente alto como para asegurarse de que las instancias inactivas permanezcan disponibles para los trabajos posteriores.

El uso de un trabajo de inicio permite que las instancias del grupo se pongan en marcha, rellenen el grupo y permanezcan disponibles para trabajos de bajada o clústeres interactivos.