Novedades y planeadas para Fabric Ingeniero de datos ing en Microsoft Fabric
Importante
Los planes de versión describen la funcionalidad que puede haberse publicado o no. Las escalas de tiempo de entrega y la funcionalidad proyectada pueden cambiar o no enviarse. Consulte la directiva de Microsoft para obtener más información.
Fabric Ingeniero de datos permite a los ingenieros de datos transformar sus datos a escala mediante Spark y crear su arquitectura de lakehouse.
Lakehouse para todos los datos de la organización: Lakehouse combina lo mejor del lago de datos y el almacenamiento de datos en una sola experiencia. Permite a los usuarios ingerir, preparar y compartir datos de la organización en un formato abierto en el lago. Más adelante puede acceder a él a través de varios motores, como Spark, T-SQL y Power BI. Proporciona varias opciones de integración de datos, como flujos de datos y canalizaciones, accesos directos a orígenes de datos externos y funcionalidades de uso compartido de productos de datos.
Motor y tiempo de ejecución de Spark con rendimiento: la ingeniería de datos de Fabric proporciona a los clientes un entorno de ejecución de Spark optimizado con las versiones más recientes de Spark, Delta y Python. Usa Delta Lake como formato de tabla común para todos los motores, lo que permite facilitar el uso compartido de datos y la generación de informes sin movimiento de datos. El tiempo de ejecución incluye optimizaciones de Spark, lo que mejora el rendimiento de las consultas sin ninguna configuración. También ofrece grupos de inicio y modo de alta simultaneidad para acelerar y reutilizar las sesiones de Spark, lo que le ahorra tiempo y costo.
Administrador y configuraciones de Spark: los administradores del área de trabajo con los permisos adecuados pueden crear y configurar grupos personalizados para optimizar el rendimiento y el costo de sus cargas de trabajo de Spark. Los creadores pueden configurar entornos para instalar bibliotecas, seleccionar la versión en tiempo de ejecución y establecer las propiedades de Spark para sus cuadernos y trabajos de Spark.
Experiencia para desarrolladores: los desarrolladores pueden usar cuadernos, trabajos de Spark o su IDE preferido para crear y ejecutar código spark en Fabric. Pueden acceder de forma nativa a los datos de lakehouse, colaborar con otros usuarios, instalar bibliotecas, realizar un seguimiento del historial, realizar supervisión en línea y obtener recomendaciones del asesor de Spark. También pueden usar Data Wrangler para preparar fácilmente los datos con una interfaz de usuario de poco código.
Integración de plataformas: todos los elementos de ingeniería de datos de Fabric, incluidos cuadernos, trabajos de Spark, entornos y almacenes de lago, se integran profundamente en la plataforma Fabric (funcionalidades de administración de información empresarial, linaje, etiquetas de confidencialidad y aprobaciones).
Áreas de inversión
Cuaderno de Python
Escala de tiempo de lanzamiento estimada: Q4 2024
Tipo de versión: versión preliminar pública
Los cuadernos de Fabric admiten la experiencia pura de Python. Esta nueva solución está destinada a desarrolladores de BI y Científico de datos que trabajan con conjuntos de datos más pequeños (hasta algunos GB) y el uso de Pandas y Python como lenguaje principal. A través de esta nueva experiencia, podrán beneficiarse del lenguaje Python nativo y sus características y bibliotecas nativas de fábrica, podrán cambiar de una versión de Python a otra (inicialmente se admitirán dos versiones) y, por último, se beneficiarán con un mejor uso de recursos mediante un equipo de 2VCore más pequeño.
ArcGIS GeoAnalytics para Microsoft Fabric Spark
Escala de tiempo de lanzamiento estimada: Q4 2024
Tipo de versión: versión preliminar pública
Microsoft y Esri se han asociado para incorporar análisis espaciales a Microsoft Fabric. Esta colaboración presenta una nueva biblioteca, ArcGIS GeoAnalytics para Microsoft Fabric, lo que permite un amplio conjunto de análisis espaciales directamente dentro de cuadernos de Spark de Microsoft Fabric y definiciones de trabajos de Spark (tanto en Ingeniero de datos como en experiencias o cargas de trabajo de Ciencia de datos).
Esta experiencia de producto integrada permite a los desarrolladores o científicos de datos de Spark usar de forma nativa las funcionalidades de Esri para ejecutar funciones y herramientas de GeoAnalytics de ArcGIS dentro de Fabric Spark para la transformación espacial, el enriquecimiento y el análisis de tendencias de datos , incluso macrodatos, en distintos casos de uso sin necesidad de instalación y configuración independientes.
Instalación de bibliotecas desde la cuenta de almacenamiento de ADLS Gen2
Escala de tiempo de lanzamiento estimada: Q4 2024
Tipo de versión: versión preliminar pública
Compatibilidad con un nuevo origen para que los usuarios instalen bibliotecas. Mediante la creación de un canal personalizado de conda/PyPI, que se hospeda en su cuenta de almacenamiento, los usuarios pueden instalar las bibliotecas desde su cuenta de almacenamiento en sus entornos de Tejido.
Control de versiones en directo del cuaderno
Escala de tiempo de lanzamiento estimada: Q1 2025
Tipo de versión: versión preliminar pública
Con el control de versiones en directo, los desarrolladores de Fabric Notebook pueden realizar un seguimiento del historial de los cambios realizados en sus cuadernos, comparar diferentes veriones y restaurar versiones anteriores si es necesario.
Extensión satélite de VSCode para funciones de datos de usuario en Fabric
Escala de tiempo de lanzamiento estimada: Q1 2025
Tipo de versión: versión preliminar pública
La extensión satélite de VSCode para User Data Functions proporcionará compatibilidad para desarrolladores (edición, compilación, depuración, publicación) para Funciones de datos de usuario en Fabric.
Funciones de datos de usuario en Fabric
Escala de tiempo de lanzamiento estimada: Q1 2025
Tipo de versión: versión preliminar pública
Las funciones de datos de usuario proporcionarán un mecanismo eficaz para implementar y volver a usar lógica de negocios personalizada y especializada en flujos de trabajo de ciencia de datos y ingeniería de datos de Fabric, lo que aumenta la eficacia y la flexibilidad.
API de supervisión pública
Escala de tiempo de lanzamiento estimada: Q1 2025
Tipo de versión: versión preliminar pública
La característica api de supervisión pública para Fabric Spark tiene como objetivo exponer las API de supervisión de Spark, lo que permite a los usuarios supervisar el progreso del trabajo de Spark, ver las tareas de ejecución y acceder a los registros mediante programación. Esta característica está alineada con los estándares de API públicos, lo que proporciona una experiencia de supervisión sin problemas para las aplicaciones spark.
Metadatos de accesos directos de Lakehouse en canalizaciones de git e implementación
Escala de tiempo de lanzamiento estimada: Q1 2025
Tipo de versión: versión preliminar pública
Para ofrecer una historia atractiva de administración del ciclo de vida de las aplicaciones, el seguimiento de los metadatos del objeto en Git y la compatibilidad con las canalizaciones de implementación es imperativo. En los módulos Ingeniero de datos, ya que las áreas de trabajo se integran en Git.
En esta primera iteración, los accesos directos de OneLake se implementarán automáticamente en las fases de canalización y las áreas de trabajo. Las conexiones de acceso directo se pueden reasignar entre fases mediante un nuevo elemento de Microsoft Fabric denominado biblioteca de variables, lo que garantiza el aislamiento adecuado y la segmentación del entorno que esperan los clientes.
Mejoras de Delta Lake en las experiencias de Spark
Escala de tiempo de lanzamiento estimada: Q1 2025
Tipo de versión: disponibilidad general
Tener los valores predeterminados adecuados y alinearse con los estándares más recientes es de la máxima importancia para los estándares de Delta Lake en Microsoft Fabric. INT64 será el nuevo tipo de codificación predeterminado para todos los valores de marca de tiempo. Esto se aleja de las codificaciones INT96, que el Apache Parquet ha quedado en desuso hace años. Los cambios no afectan a ninguna funcionalidad de lectura, es transparente y compatible de forma predeterminada, pero garantiza que todos los nuevos archivos parquet de la tabla delta Lake se escriben de forma más eficaz y futura.
También estamos publicando una implementación más rápida del comando OPTIMIZE, lo que hace que omita los archivos ya ordenados por V.
Compatibilidad con instantáneas de trabajos de Notebook en curso
Escala de tiempo de lanzamiento estimada: Q1 2025
Tipo de versión: versión preliminar pública
Esta característica permite a los usuarios ver una instantánea del cuaderno mientras todavía se está ejecutando, lo que es esencial para supervisar el progreso y solucionar problemas de rendimiento. Los usuarios pueden ver el código fuente original, los parámetros de entrada y las salidas de celda para comprender mejor el trabajo de Spark y pueden realizar un seguimiento del progreso de la ejecución de Spark en el nivel de celda. Los usuarios también pueden revisar la salida de las celdas completadas para validar la precisión de la aplicación Spark y calcular el trabajo restante. Además, se muestran los errores o excepciones de las celdas ya ejecutadas, lo que ayuda a los usuarios a identificar y solucionar problemas al principio.
Compatibilidad de RLS/CLS con Spark y Lakehouse
Escala de tiempo de lanzamiento estimada: Q1 2025
Tipo de versión: versión preliminar pública
La característica permite a los usuarios implementar directivas de seguridad para el acceso a datos dentro del motor de Spark. Los usuarios pueden definir la seguridad de nivel de objeto, fila o columna, asegurándose de que los datos están protegidos según lo definido por estas directivas cuando se accede a través de Fabric Spark y se alinean con la iniciativa OneSecurity que se habilita en Microsoft Fabric.
Conector de Spark para Fabric Data Warehouse: disponibilidad general
Escala de tiempo de lanzamiento estimada: Q1 2025
Tipo de versión: disponibilidad general
El conector de Spark para Microsoft Fabric Data Warehouse permite a los desarrolladores y científicos de datos de Spark acceder a datos y trabajar con datos desde un almacén y el punto de conexión de análisis sql de una instancia de LakeHouse. Ofrece una API de Spark simplificada, abstrae la complejidad subyacente y funciona con una sola línea de código, a la vez que mantiene modelos de seguridad como la seguridad de nivel de objeto (OLS), la seguridad de nivel de fila (RLS) y la seguridad de nivel de columna (CLS).
Características enviadas
Capacidad de ordenar y filtrar tablas y carpetas en Lakehouse
Enviado (Q4 2024)
Tipo de versión: disponibilidad general
Esta característica permite a los clientes ordenar y filtrar sus tablas y carpetas en Lakehouse por varios métodos diferentes, como por orden alfabético, fecha de creación, etc.
Cuadernos de una aplicación
Enviado (Q4 2024)
Tipo de versión: versión preliminar pública
Las aplicaciones de la organización están disponibles como un nuevo elemento en Fabric y puede incluir cuadernos junto con informes y paneles de Power BI en aplicaciones de Fabric y distribuirlos a los usuarios empresariales. Los consumidores de aplicaciones pueden interactuar con widgets y objetos visuales en el cuaderno, como mecanismo alternativo de creación de informes y exploración de datos. Esto le permite crear y compartir historias enriquecidas y atractivas con sus datos.
Extensión principal de VSCode para Fabric
Enviado (Q3 2024)
Tipo de versión: versión preliminar pública
La extensión principal de VSCode para Fabric proporcionará compatibilidad para desarrolladores comunes con los servicios de Fabric.
Cuaderno de T-SQL
Enviado (Q3 2024)
Tipo de versión: versión preliminar pública
Los cuadernos de Fabric admiten el lenguaje T-SQL para consumir datos en Data Warehouse. Al agregar un punto de conexión de almacenamiento de datos o de análisis SQL a un cuaderno, los desarrolladores de T-SQL pueden ejecutar consultas directamente en el punto de conexión conectado. Los analistas de BI también pueden realizar consultas entre bases de datos para recopilar información de varios almacenes y puntos de conexión de análisis SQL. Los cuadernos de T-SQL ofrecen una excelente alternativa de creación a las herramientas existentes para los usuarios de SQL e incluyen características nativas de Fabric, como el uso compartido, la integración y la colaboración de GIT.
VS Code para web: compatibilidad con la depuración
Enviado (Q3 2024)
Tipo de versión: versión preliminar pública
Visual Studio Code para web se admite actualmente en versión preliminar para escenarios de creación y ejecución. Agregamos a la lista de funcionalidades la capacidad de depurar código mediante esta extensión para cuadernos.
Alta simultaneidad en canalizaciones
Enviado (Q3 2024)
Tipo de versión: disponibilidad general
Además de la alta simultaneidad en los cuadernos, también habilitaremos la alta simultaneidad en las canalizaciones. Esta funcionalidad le permitirá ejecutar varios cuadernos en una canalización con una sola sesión.
Compatibilidad de esquemas y área de trabajo en el espacio de nombres en Lakehouse
Enviado (Q3 2024)
Tipo de versión: versión preliminar pública
Esto permitirá organizar tablas mediante esquemas y consultar datos entre áreas de trabajo.
Motor de ejecución nativo de Spark
Enviado (Q2 2024)
Tipo de versión: versión preliminar pública
El motor de ejecución nativo es una mejora innovadora para las ejecuciones de trabajos de Apache Spark en Microsoft Fabric. Este motor vectorizado optimiza el rendimiento y la eficacia de las consultas de Spark ejecutándolas directamente en la infraestructura del almacén de lago. Gracias a la fácil integración del motor, no es necesario realizar modificaciones de código y puede evitar el bloqueo del proveedor. Además, admite las API de Apache Spark, es compatible con runtime 1.2 (Spark 3.4) y funciona con formatos Parquet y Delta. Independientemente de la ubicación de los datos en OneLake, o si accede a los datos a través de accesos directos, el motor de ejecución nativo maximiza la eficiencia y el rendimiento.
Conector de Spark para Fabric Data Warehouse
Enviado (Q2 2024)
Tipo de versión: versión preliminar pública
Spark Connector for Fabric DW (Data Warehouse) permite a un desarrollador de Spark o a un científico de datos acceder a datos y trabajar en datos desde Fabric Data Warehouse con una API de Spark simplificada, que literalmente funciona con una sola línea de código. Ofrece una capacidad de consultar los datos, en paralelo, desde el almacenamiento de datos de Fabric para que se escale con un volumen de datos creciente y respete el modelo de seguridad (OLS/RLS/CLS) definido en el nivel de almacenamiento de datos al acceder a la tabla o vista. Esta primera versión solo admitirá la lectura de datos y la compatibilidad con la escritura de datos estará disponible próximamente.
API de Microsoft Fabric para GraphQL
Enviado (Q2 2024)
Tipo de versión: versión preliminar pública
API para GraphQL permitirá a los ingenieros de datos de Fabric, científicos, arquitectos de soluciones de datos exponer e integrar datos de Fabric sin esfuerzo, para aplicaciones analíticas enriquecidas, eficaces y eficaces, aprovechando la eficacia y flexibilidad de GraphQL.
Creación y asociación de entornos
Enviado (Q2 2024)
Tipo de versión: disponibilidad general
Para personalizar las experiencias de Spark en un nivel más granular, puede crear y adjuntar entornos a los cuadernos y trabajos de Spark. En un entorno, puede instalar bibliotecas, configurar un nuevo grupo, establecer propiedades de Spark y cargar scripts en un sistema de archivos. Esto proporciona más flexibilidad y control sobre las cargas de trabajo de Spark, sin afectar a la configuración predeterminada del área de trabajo. Como parte de la disponibilidad general, estamos realizando varias mejoras en los entornos, incluida la compatibilidad con api y la integración de CI/CD.
Colas de trabajos para trabajos de Notebook
Enviado (Q2 2024)
Tipo de versión: disponibilidad general
Esta característica permite poner en cola cuadernos de Spark programados cuando el uso de Spark está en su número máximo de trabajos que se puede ejecutar en paralelo y, a continuación, ejecutar una vez que el uso se ha reducido por debajo del número máximo de trabajos paralelos permitidos.
Admisión optimista de trabajos para Fabric Spark
Enviado (Q2 2024)
Tipo de versión: disponibilidad general
Con la admisión optimista de trabajos, Fabric Spark solo reserva el número mínimo de núcleos a los que debe iniciarse un trabajo, en función del número mínimo de nodos a los que el trabajo se puede reducir verticalmente. Esto permite admitir más trabajos si hay suficientes recursos para cumplir los requisitos mínimos. Si un trabajo necesita escalar verticalmente más adelante, las solicitudes de escalado vertical se aprueban o rechazan en función de los núcleos disponibles en capacidad.
Ajuste automático de Spark
Enviado (Q1 2024)
Tipo de versión: versión preliminar pública
Autotune usa el aprendizaje automático para analizar automáticamente las ejecuciones anteriores de los trabajos de Spark y ajustar las configuraciones para optimizar el rendimiento. Configura cómo se particionan, se unen y leen los datos mediante Spark. De este modo, mejorará significativamente el rendimiento. Hemos visto que los trabajos del cliente se ejecutan 2 veces más rápido con esta funcionalidad.