Compartir a través de


Novedades y planeadas para Fabric Ingeniero de datos ing en Microsoft Fabric

Importante

Los planes de versión describen la funcionalidad que puede haberse publicado o no. Las escalas de tiempo de entrega y la funcionalidad proyectada pueden cambiar o no enviarse. Consulte la directiva de Microsoft para obtener más información.

Fabric Ingeniero de datos permite a los ingenieros de datos transformar sus datos a escala mediante Spark y crear su arquitectura de lakehouse.

Lakehouse para todos los datos de la organización: Lakehouse combina lo mejor del lago de datos y el almacenamiento de datos en una sola experiencia. Permite a los usuarios ingerir, preparar y compartir datos de la organización en un formato abierto en el lago. Más adelante puede acceder a él a través de varios motores, como Spark, T-SQL y Power BI. Proporciona varias opciones de integración de datos, como flujos de datos y canalizaciones, accesos directos a orígenes de datos externos y funcionalidades de uso compartido de productos de datos.

Motor y tiempo de ejecución de Spark con rendimiento: la ingeniería de datos de Fabric proporciona a los clientes un entorno de ejecución de Spark optimizado con las versiones más recientes de Spark, Delta y Python. Usa Delta Lake como formato de tabla común para todos los motores, lo que permite facilitar el uso compartido de datos y la generación de informes sin movimiento de datos. El tiempo de ejecución incluye optimizaciones de Spark, lo que mejora el rendimiento de las consultas sin ninguna configuración. También ofrece grupos de inicio y modo de alta simultaneidad para acelerar y reutilizar las sesiones de Spark, lo que le ahorra tiempo y costo.

Administrador y configuraciones de Spark: los administradores del área de trabajo con los permisos adecuados pueden crear y configurar grupos personalizados para optimizar el rendimiento y el costo de sus cargas de trabajo de Spark. Los creadores pueden configurar entornos para instalar bibliotecas, seleccionar la versión en tiempo de ejecución y establecer las propiedades de Spark para sus cuadernos y trabajos de Spark.

Experiencia para desarrolladores: los desarrolladores pueden usar cuadernos, trabajos de Spark o su IDE preferido para crear y ejecutar código spark en Fabric. Pueden acceder de forma nativa a los datos de lakehouse, colaborar con otros usuarios, instalar bibliotecas, realizar un seguimiento del historial, realizar supervisión en línea y obtener recomendaciones del asesor de Spark. También pueden usar Data Wrangler para preparar fácilmente los datos con una interfaz de usuario de poco código.

Integración de plataformas: todos los elementos de ingeniería de datos de Fabric, incluidos cuadernos, trabajos de Spark, entornos y almacenes de lago, se integran profundamente en la plataforma Fabric (funcionalidades de administración de información empresarial, linaje, etiquetas de confidencialidad y aprobaciones).

Áreas de inversión

Característica Escala de tiempo de lanzamiento estimada
Cuaderno de Python T4 2024
ArcGIS GeoAnalytics para Microsoft Fabric Spark T4 2024
Instalación de bibliotecas desde la cuenta de almacenamiento de ADLS Gen2 T4 2024
Control de versiones en directo del cuaderno Q1 2025
Extensión satélite de VSCode para funciones de datos de usuario en Fabric Q1 2025
Funciones de datos de usuario en Fabric Q1 2025
API de supervisión pública Q1 2025
Metadatos de accesos directos de Lakehouse en canalizaciones de git e implementación Q1 2025
Mejoras de Delta Lake en las experiencias de Spark Q1 2025
Compatibilidad con instantáneas de trabajos de Notebook en curso Q1 2025
Compatibilidad de RLS/CLS con Spark y Lakehouse Q1 2025
Conector de Spark para Fabric Data Warehouse: disponibilidad general Q1 2025
Capacidad de ordenar y filtrar tablas y carpetas en Lakehouse Enviado (Q4 2024)
Cuadernos de una aplicación Enviado (Q4 2024)
Extensión principal de VSCode para Fabric Enviado (Q3 2024)
Cuaderno de T-SQL Enviado (Q3 2024)
VS Code para web: compatibilidad con la depuración Enviado (Q3 2024)
Alta simultaneidad en canalizaciones Enviado (Q3 2024)
Compatibilidad de esquemas y área de trabajo en el espacio de nombres en Lakehouse Enviado (Q3 2024)
Motor de ejecución nativo de Spark Enviado (Q2 2024)
Conector de Spark para Fabric Data Warehouse Enviado (Q2 2024)
API de Microsoft Fabric para GraphQL Enviado (Q2 2024)
Creación y asociación de entornos Enviado (Q2 2024)
Colas de trabajos para trabajos de Notebook Enviado (Q2 2024)
Admisión optimista de trabajos para Fabric Spark Enviado (Q2 2024)
Autotune de Spark Enviado (Q1 2024)

Cuaderno de Python

Escala de tiempo de lanzamiento estimada: Q4 2024

Tipo de versión: versión preliminar pública

Los cuadernos de Fabric admiten la experiencia pura de Python. Esta nueva solución está destinada a desarrolladores de BI y Científico de datos que trabajan con conjuntos de datos más pequeños (hasta algunos GB) y el uso de Pandas y Python como lenguaje principal. A través de esta nueva experiencia, podrán beneficiarse del lenguaje Python nativo y sus características y bibliotecas nativas de fábrica, podrán cambiar de una versión de Python a otra (inicialmente se admitirán dos versiones) y, por último, se beneficiarán con un mejor uso de recursos mediante un equipo de 2VCore más pequeño.

ArcGIS GeoAnalytics para Microsoft Fabric Spark

Escala de tiempo de lanzamiento estimada: Q4 2024

Tipo de versión: versión preliminar pública

Microsoft y Esri se han asociado para incorporar análisis espaciales a Microsoft Fabric. Esta colaboración presenta una nueva biblioteca, ArcGIS GeoAnalytics para Microsoft Fabric, lo que permite un amplio conjunto de análisis espaciales directamente dentro de cuadernos de Spark de Microsoft Fabric y definiciones de trabajos de Spark (tanto en Ingeniero de datos como en experiencias o cargas de trabajo de Ciencia de datos).

Esta experiencia de producto integrada permite a los desarrolladores o científicos de datos de Spark usar de forma nativa las funcionalidades de Esri para ejecutar funciones y herramientas de GeoAnalytics de ArcGIS dentro de Fabric Spark para la transformación espacial, el enriquecimiento y el análisis de tendencias de datos , incluso macrodatos, en distintos casos de uso sin necesidad de instalación y configuración independientes.

Instalación de bibliotecas desde la cuenta de almacenamiento de ADLS Gen2

Escala de tiempo de lanzamiento estimada: Q4 2024

Tipo de versión: versión preliminar pública

Compatibilidad con un nuevo origen para que los usuarios instalen bibliotecas. Mediante la creación de un canal personalizado de conda/PyPI, que se hospeda en su cuenta de almacenamiento, los usuarios pueden instalar las bibliotecas desde su cuenta de almacenamiento en sus entornos de Tejido.

Control de versiones en directo del cuaderno

Escala de tiempo de lanzamiento estimada: Q1 2025

Tipo de versión: versión preliminar pública

Con el control de versiones en directo, los desarrolladores de Fabric Notebook pueden realizar un seguimiento del historial de los cambios realizados en sus cuadernos, comparar diferentes veriones y restaurar versiones anteriores si es necesario.

Extensión satélite de VSCode para funciones de datos de usuario en Fabric

Escala de tiempo de lanzamiento estimada: Q1 2025

Tipo de versión: versión preliminar pública

La extensión satélite de VSCode para User Data Functions proporcionará compatibilidad para desarrolladores (edición, compilación, depuración, publicación) para Funciones de datos de usuario en Fabric.

Funciones de datos de usuario en Fabric

Escala de tiempo de lanzamiento estimada: Q1 2025

Tipo de versión: versión preliminar pública

Las funciones de datos de usuario proporcionarán un mecanismo eficaz para implementar y volver a usar lógica de negocios personalizada y especializada en flujos de trabajo de ciencia de datos y ingeniería de datos de Fabric, lo que aumenta la eficacia y la flexibilidad.

API de supervisión pública

Escala de tiempo de lanzamiento estimada: Q1 2025

Tipo de versión: versión preliminar pública

La característica api de supervisión pública para Fabric Spark tiene como objetivo exponer las API de supervisión de Spark, lo que permite a los usuarios supervisar el progreso del trabajo de Spark, ver las tareas de ejecución y acceder a los registros mediante programación. Esta característica está alineada con los estándares de API públicos, lo que proporciona una experiencia de supervisión sin problemas para las aplicaciones spark.

Metadatos de accesos directos de Lakehouse en canalizaciones de git e implementación

Escala de tiempo de lanzamiento estimada: Q1 2025

Tipo de versión: versión preliminar pública

Para ofrecer una historia atractiva de administración del ciclo de vida de las aplicaciones, el seguimiento de los metadatos del objeto en Git y la compatibilidad con las canalizaciones de implementación es imperativo. En los módulos Ingeniero de datos, ya que las áreas de trabajo se integran en Git.

En esta primera iteración, los accesos directos de OneLake se implementarán automáticamente en las fases de canalización y las áreas de trabajo. Las conexiones de acceso directo se pueden reasignar entre fases mediante un nuevo elemento de Microsoft Fabric denominado biblioteca de variables, lo que garantiza el aislamiento adecuado y la segmentación del entorno que esperan los clientes.

Mejoras de Delta Lake en las experiencias de Spark

Escala de tiempo de lanzamiento estimada: Q1 2025

Tipo de versión: disponibilidad general

Tener los valores predeterminados adecuados y alinearse con los estándares más recientes es de la máxima importancia para los estándares de Delta Lake en Microsoft Fabric. INT64 será el nuevo tipo de codificación predeterminado para todos los valores de marca de tiempo. Esto se aleja de las codificaciones INT96, que el Apache Parquet ha quedado en desuso hace años. Los cambios no afectan a ninguna funcionalidad de lectura, es transparente y compatible de forma predeterminada, pero garantiza que todos los nuevos archivos parquet de la tabla delta Lake se escriben de forma más eficaz y futura.

También estamos publicando una implementación más rápida del comando OPTIMIZE, lo que hace que omita los archivos ya ordenados por V.

Compatibilidad con instantáneas de trabajos de Notebook en curso

Escala de tiempo de lanzamiento estimada: Q1 2025

Tipo de versión: versión preliminar pública

Esta característica permite a los usuarios ver una instantánea del cuaderno mientras todavía se está ejecutando, lo que es esencial para supervisar el progreso y solucionar problemas de rendimiento. Los usuarios pueden ver el código fuente original, los parámetros de entrada y las salidas de celda para comprender mejor el trabajo de Spark y pueden realizar un seguimiento del progreso de la ejecución de Spark en el nivel de celda. Los usuarios también pueden revisar la salida de las celdas completadas para validar la precisión de la aplicación Spark y calcular el trabajo restante. Además, se muestran los errores o excepciones de las celdas ya ejecutadas, lo que ayuda a los usuarios a identificar y solucionar problemas al principio.

Compatibilidad de RLS/CLS con Spark y Lakehouse

Escala de tiempo de lanzamiento estimada: Q1 2025

Tipo de versión: versión preliminar pública

La característica permite a los usuarios implementar directivas de seguridad para el acceso a datos dentro del motor de Spark. Los usuarios pueden definir la seguridad de nivel de objeto, fila o columna, asegurándose de que los datos están protegidos según lo definido por estas directivas cuando se accede a través de Fabric Spark y se alinean con la iniciativa OneSecurity que se habilita en Microsoft Fabric.

Conector de Spark para Fabric Data Warehouse: disponibilidad general

Escala de tiempo de lanzamiento estimada: Q1 2025

Tipo de versión: disponibilidad general

El conector de Spark para Microsoft Fabric Data Warehouse permite a los desarrolladores y científicos de datos de Spark acceder a datos y trabajar con datos desde un almacén y el punto de conexión de análisis sql de una instancia de LakeHouse. Ofrece una API de Spark simplificada, abstrae la complejidad subyacente y funciona con una sola línea de código, a la vez que mantiene modelos de seguridad como la seguridad de nivel de objeto (OLS), la seguridad de nivel de fila (RLS) y la seguridad de nivel de columna (CLS).

Características enviadas

Capacidad de ordenar y filtrar tablas y carpetas en Lakehouse

Enviado (Q4 2024)

Tipo de versión: disponibilidad general

Esta característica permite a los clientes ordenar y filtrar sus tablas y carpetas en Lakehouse por varios métodos diferentes, como por orden alfabético, fecha de creación, etc.

Cuadernos de una aplicación

Enviado (Q4 2024)

Tipo de versión: versión preliminar pública

Las aplicaciones de la organización están disponibles como un nuevo elemento en Fabric y puede incluir cuadernos junto con informes y paneles de Power BI en aplicaciones de Fabric y distribuirlos a los usuarios empresariales. Los consumidores de aplicaciones pueden interactuar con widgets y objetos visuales en el cuaderno, como mecanismo alternativo de creación de informes y exploración de datos. Esto le permite crear y compartir historias enriquecidas y atractivas con sus datos.

Extensión principal de VSCode para Fabric

Enviado (Q3 2024)

Tipo de versión: versión preliminar pública

La extensión principal de VSCode para Fabric proporcionará compatibilidad para desarrolladores comunes con los servicios de Fabric.

Cuaderno de T-SQL

Enviado (Q3 2024)

Tipo de versión: versión preliminar pública

Los cuadernos de Fabric admiten el lenguaje T-SQL para consumir datos en Data Warehouse. Al agregar un punto de conexión de almacenamiento de datos o de análisis SQL a un cuaderno, los desarrolladores de T-SQL pueden ejecutar consultas directamente en el punto de conexión conectado. Los analistas de BI también pueden realizar consultas entre bases de datos para recopilar información de varios almacenes y puntos de conexión de análisis SQL. Los cuadernos de T-SQL ofrecen una excelente alternativa de creación a las herramientas existentes para los usuarios de SQL e incluyen características nativas de Fabric, como el uso compartido, la integración y la colaboración de GIT.

VS Code para web: compatibilidad con la depuración

Enviado (Q3 2024)

Tipo de versión: versión preliminar pública

Visual Studio Code para web se admite actualmente en versión preliminar para escenarios de creación y ejecución. Agregamos a la lista de funcionalidades la capacidad de depurar código mediante esta extensión para cuadernos.

Alta simultaneidad en canalizaciones

Enviado (Q3 2024)

Tipo de versión: disponibilidad general

Además de la alta simultaneidad en los cuadernos, también habilitaremos la alta simultaneidad en las canalizaciones. Esta funcionalidad le permitirá ejecutar varios cuadernos en una canalización con una sola sesión.

Compatibilidad de esquemas y área de trabajo en el espacio de nombres en Lakehouse

Enviado (Q3 2024)

Tipo de versión: versión preliminar pública

Esto permitirá organizar tablas mediante esquemas y consultar datos entre áreas de trabajo.

Motor de ejecución nativo de Spark

Enviado (Q2 2024)

Tipo de versión: versión preliminar pública

El motor de ejecución nativo es una mejora innovadora para las ejecuciones de trabajos de Apache Spark en Microsoft Fabric. Este motor vectorizado optimiza el rendimiento y la eficacia de las consultas de Spark ejecutándolas directamente en la infraestructura del almacén de lago. Gracias a la fácil integración del motor, no es necesario realizar modificaciones de código y puede evitar el bloqueo del proveedor. Además, admite las API de Apache Spark, es compatible con runtime 1.2 (Spark 3.4) y funciona con formatos Parquet y Delta. Independientemente de la ubicación de los datos en OneLake, o si accede a los datos a través de accesos directos, el motor de ejecución nativo maximiza la eficiencia y el rendimiento.

Conector de Spark para Fabric Data Warehouse

Enviado (Q2 2024)

Tipo de versión: versión preliminar pública

Spark Connector for Fabric DW (Data Warehouse) permite a un desarrollador de Spark o a un científico de datos acceder a datos y trabajar en datos desde Fabric Data Warehouse con una API de Spark simplificada, que literalmente funciona con una sola línea de código. Ofrece una capacidad de consultar los datos, en paralelo, desde el almacenamiento de datos de Fabric para que se escale con un volumen de datos creciente y respete el modelo de seguridad (OLS/RLS/CLS) definido en el nivel de almacenamiento de datos al acceder a la tabla o vista. Esta primera versión solo admitirá la lectura de datos y la compatibilidad con la escritura de datos estará disponible próximamente.

API de Microsoft Fabric para GraphQL

Enviado (Q2 2024)

Tipo de versión: versión preliminar pública

API para GraphQL permitirá a los ingenieros de datos de Fabric, científicos, arquitectos de soluciones de datos exponer e integrar datos de Fabric sin esfuerzo, para aplicaciones analíticas enriquecidas, eficaces y eficaces, aprovechando la eficacia y flexibilidad de GraphQL.

Creación y asociación de entornos

Enviado (Q2 2024)

Tipo de versión: disponibilidad general

Para personalizar las experiencias de Spark en un nivel más granular, puede crear y adjuntar entornos a los cuadernos y trabajos de Spark. En un entorno, puede instalar bibliotecas, configurar un nuevo grupo, establecer propiedades de Spark y cargar scripts en un sistema de archivos. Esto proporciona más flexibilidad y control sobre las cargas de trabajo de Spark, sin afectar a la configuración predeterminada del área de trabajo. Como parte de la disponibilidad general, estamos realizando varias mejoras en los entornos, incluida la compatibilidad con api y la integración de CI/CD.

Colas de trabajos para trabajos de Notebook

Enviado (Q2 2024)

Tipo de versión: disponibilidad general

Esta característica permite poner en cola cuadernos de Spark programados cuando el uso de Spark está en su número máximo de trabajos que se puede ejecutar en paralelo y, a continuación, ejecutar una vez que el uso se ha reducido por debajo del número máximo de trabajos paralelos permitidos.

Admisión optimista de trabajos para Fabric Spark

Enviado (Q2 2024)

Tipo de versión: disponibilidad general

Con la admisión optimista de trabajos, Fabric Spark solo reserva el número mínimo de núcleos a los que debe iniciarse un trabajo, en función del número mínimo de nodos a los que el trabajo se puede reducir verticalmente. Esto permite admitir más trabajos si hay suficientes recursos para cumplir los requisitos mínimos. Si un trabajo necesita escalar verticalmente más adelante, las solicitudes de escalado vertical se aprueban o rechazan en función de los núcleos disponibles en capacidad.

Ajuste automático de Spark

Enviado (Q1 2024)

Tipo de versión: versión preliminar pública

Autotune usa el aprendizaje automático para analizar automáticamente las ejecuciones anteriores de los trabajos de Spark y ajustar las configuraciones para optimizar el rendimiento. Configura cómo se particionan, se unen y leen los datos mediante Spark. De este modo, mejorará significativamente el rendimiento. Hemos visto que los trabajos del cliente se ejecutan 2 veces más rápido con esta funcionalidad.