Integración de Git con la definición de trabajo de Spark
En este artículo se explica cómo funciona la integración de Git para las definiciones de trabajos de Spark (SJD) en Microsoft Fabric. Obtenga información sobre cómo configurar una conexión de repositorio, administrar los cambios de definición de trabajos de Spark a través del control de código fuente e implementarlos en varias áreas de trabajo.
La habilitación de la integración de Git para las definiciones de trabajos de Spark en Azure DevOps le permite realizar un seguimiento de los cambios a través del historial completo de Git. Si se selecciona PySpark o SparkR, el archivo de definición principal y el archivo de referencia se incluyen como parte de la confirmación. También se realiza un seguimiento de los cambios en el código fuente de estos archivos.
Importante
Esta característica se encuentra en versión preliminar.
Configuración de una conexión
Desde la configuración del área de trabajo, puede configurar fácilmente una conexión al repositorio para confirmar y sincronizar los cambios. Para configurar la conexión, consulte el artículo Introducción a la integración de Git. Una vez conectados, sus elementos, como las definiciones de trabajo de Spark, estarán visibles en el panel de control de código fuente.
Cuando haya confirmado la definición del trabajo de Spark en el repositorio de Git, la estructura de carpetas de definición de trabajo aparecerá en el repositorio.
Representación de definición de trabajo de Spark en Git
La siguiente imagen es un ejemplo de la estructura de archivos de cada elemento de definición de trabajo de Spark del repositorio:
Al confirmar el elemento de definición de trabajo de Spark en el repositorio, se crea una carpeta git para cada elemento y se denomina según este esquema: <Nombre del elemento> + "SparkJobDefinition". No cambie el nombre de la carpeta, ya que se utiliza para realizar el seguimiento del elemento en el área de trabajo. Por ejemplo, si el nombre del elemento es "sjd1", el nombre de la carpeta git sería "sjd1SparkJobDefinition".
Hay dos subcarpetas dentro de la carpeta git. Son las carpetas principal y referencia. La carpeta principal contiene el archivo de definición principal y la carpeta referencia contiene el archivo de referencia.
Además de los archivos de referencia y principales, también hay un archivo SparkJobDefinitionV1.json. Contiene los metadatos del elemento de definición de trabajo de Spark, por lo que no lo debe modificar. El archivo .platform contiene la información de la plataforma relacionada con la configuración > de Git que tampoco debe modificarse.
Nota:
- Si elige Java o Scala como lenguaje, los archivos principal y de referencia no se confirmarán cuando se carguen como un archivo .jar.
- El entorno adjunto persiste en una definición de trabajo de Spark después de sincronizar a un área de trabajo de Fabric desde el repositorio. Actualmente, no se admiten entornos de referencia entre áreas de trabajo. Debe asociar manualmente a un nuevo entorno o utilizar una configuración predeterminada del área de trabajo para ejecutar la definición de trabajo.
- La definición del trabajo de Spark conserva el id. del almacén de lago predeterminado al sincronizar a un área de trabajo de Fabric desde el repositorio. Si confirma un cuaderno con el almacén de lago predeterminado, deberá hacer referencia manualmente a un elemento del almacén de lago recién creado. Para más información, consulte Integración del almacén de lago de Git.