Nouveautés et planifications du Ingénieurs Données Fabric dans Microsoft Fabric
Important
Les plans de mise en production décrivent les fonctionnalités susceptibles ou non d’avoir été publiées. Les délais de livraison et les fonctionnalités projetées peuvent changer ou ne pas être expédiés. Pour plus d’informations, consultez la stratégie Microsoft.
Fabric Ingénieurs Données ing permet aux ingénieurs données de pouvoir transformer leurs données à grande échelle à l’aide de Spark et de créer leur architecture lakehouse.
Lakehouse pour toutes vos données organisationnelles : Le lakehouse combine le meilleur du lac de données et de l’entrepôt de données dans une expérience unique. Il permet aux utilisateurs d’ingérer, de préparer et de partager des données organisationnelles dans un format ouvert dans le lac. Plus tard, vous pouvez y accéder via plusieurs moteurs tels que Spark, T-SQL et Power BI. Il fournit différentes options d’intégration de données, telles que les flux de données et les pipelines, les raccourcis vers des sources de données externes et les fonctionnalités de partage de produits de données.
Moteur Spark performant et runtime : l’ingénierie des données fabric fournit aux clients un runtime Spark optimisé avec les dernières versions de Spark, Delta et Python.. Il utilise Delta Lake comme format de table commun pour tous les moteurs, ce qui facilite le partage et la création de rapports de données sans déplacement de données. Le runtime est fourni avec des optimisations Spark, améliorant vos performances de requête sans aucune configuration. Il offre également des pools de démarrage et un mode haute concurrence pour accélérer et réutiliser vos sessions Spark, ce qui vous permet de gagner du temps et des coûts.
Configuration de l’administrateur Spark : les administrateurs d’espace de travail disposant d’autorisations appropriées peuvent créer et configurer des pools personnalisés pour optimiser les performances et le coût de leurs charges de travail Spark. Les créateurs peuvent configurer des environnements pour installer des bibliothèques, sélectionner la version du runtime et définir des propriétés Spark pour leurs notebooks et travaux Spark.
Expérience développeur : les développeurs peuvent utiliser des notebooks, des travaux Spark ou leur IDE préféré pour créer et exécuter du code Spark dans Fabric. Ils peuvent accéder en mode natif aux données lakehouse, collaborer avec d’autres personnes, installer des bibliothèques, suivre l’historique, effectuer une surveillance en ligne et obtenir des recommandations du conseiller Spark. Ils peuvent également utiliser Data Wrangler pour préparer facilement les données avec une interface utilisateur à faible code.
Intégration de la plateforme : tous les éléments d’ingénierie des données Fabric, notamment les notebooks, les travaux Spark, les environnements et les lakehouses, sont intégrés profondément à la plateforme Fabric (fonctionnalités de gestion des informations d’entreprise, traçabilité, étiquettes de confidentialité et approbations).
Domaines d’investissement
Notebook Python
Chronologie estimée de la publication : Q4 2024
Type de version : préversion publique
Les notebooks Fabric prennent en charge une expérience Python pure. Cette nouvelle solution cible les développeurs décisionnels et les Scientifique des données travaillant avec des jeux de données plus petits (jusqu’à quelques Go) et à l’aide de Pandas, et Python comme langage principal. Grâce à cette nouvelle expérience, ils pourront tirer parti du langage Python natif et de ses fonctionnalités et bibliothèques natives prêtes à l’emploi, pourront passer d’une version de Python à une autre (initialement deux versions seront prises en charge) et profiteront enfin d’une meilleure utilisation des ressources à l’aide d’une machine 2VCore plus petite.
ArcGIS GeoAnalytics pour Microsoft Fabric Spark
Chronologie estimée de la publication : Q4 2024
Type de version : préversion publique
Microsoft et Esri ont collaboré pour intégrer l’analytique spatiale dans Microsoft Fabric. Cette collaboration introduit une nouvelle bibliothèque, ArcGIS GeoAnalytics pour Microsoft Fabric, permettant un vaste ensemble d’analyses spatiales directement dans les blocs-notes Microsoft Fabric Spark et les définitions de travaux Spark (dans les Ingénieurs Données et les expériences et les charges de travail Science des données).
Cette expérience de produit intégrée permet aux développeurs Spark ou aux scientifiques des données d’utiliser en mode natif des fonctionnalités Esri pour exécuter des fonctions et des outils ArcGIS GeoAnalytics au sein de Fabric Spark pour la transformation spatiale, l’enrichissement et le modèle/ l’analyse des tendances des données – même des big data – dans différents cas d’usage sans avoir besoin d’une installation et d’une configuration distinctes.
Installation de bibliothèques à partir d’un compte de stockage ADLS Gen2
Chronologie estimée de la publication : Q4 2024
Type de version : préversion publique
Prise en charge d’une nouvelle source pour que les utilisateurs installent des bibliothèques. Grâce à la création d’un canal conda/PyPI personnalisé, hébergé sur leur compte de stockage, les utilisateurs peuvent installer les bibliothèques à partir de leur compte de stockage dans leurs environnements Fabric.
Gestion des versions dynamiques du notebook
Chronologie estimée de la publication : Q1 2025
Type de version : préversion publique
Avec le contrôle de version en direct, les développeurs Fabric Notebook peuvent suivre l’historique des modifications apportées à leurs notebooks, comparer différentes verions et restaurer les versions précédentes si nécessaire.
Extension satellite VSCode pour les fonctions de données utilisateur dans Fabric
Chronologie estimée de la publication : Q1 2025
Type de version : préversion publique
L’extension satellite VSCode pour Les fonctions de données utilisateur fournit la prise en charge des développeurs (modification, génération, débogage, publication) pour les fonctions de données utilisateur dans Fabric.
Fonctions de données utilisateur dans Fabric
Chronologie estimée de la publication : Q1 2025
Type de version : préversion publique
Les fonctions de données utilisateur fournissent un mécanisme puissant permettant d’implémenter et de réutiliser une logique métier personnalisée et spécialisée dans les flux de travail de science des données et d’ingénierie des données fabric, ce qui augmente l’efficacité et la flexibilité.
API de supervision publique
Chronologie estimée de la publication : Q1 2025
Type de version : préversion publique
La fonctionnalité d’API de supervision publique pour Fabric Spark vise à exposer les API de supervision Spark, ce qui permet aux utilisateurs de surveiller la progression des travaux Spark, d’afficher les tâches d’exécution et d’accéder aux journaux d’activité par programmation. Cette fonctionnalité est alignée sur les normes d’API publiques, ce qui offre une expérience de supervision transparente pour les applications Spark.
Métadonnées des raccourcis Lakehouse sur les pipelines git et de déploiement
Chronologie estimée de la publication : Q1 2025
Type de version : préversion publique
Pour fournir un récit de gestion de cycle de vie d’application attrayant, le suivi des métadonnées d’objet dans git et la prise en charge des pipelines de déploiement est impératif. Dans les modules Ingénieurs Données ing, car les espaces de travail sont intégrés à Git.
Dans cette première itération, les raccourcis OneLake seront automatiquement déployés dans les étapes de pipeline et les espaces de travail. Les connexions de raccourci peuvent être remappées à plusieurs étapes à l’aide d’un nouvel élément Microsoft Fabric nommé bibliothèque de variables, garantissant ainsi l’isolation et la segmentation de l’environnement appropriées attendues par les clients.
Améliorations apportées à Delta Lake dans les expériences Spark
Chronologie estimée de la publication : Q1 2025
Type de publication : Disponibilité générale
Les valeurs par défaut appropriées et l’alignement avec les dernières normes sont de la plus grande importance pour les normes Delta Lake dans Microsoft Fabric. INT64 sera le nouveau type d’encodage par défaut pour toutes les valeurs d’horodatage. Cela s’éloigne des encodages INT96, que l’Apache Parquet a déconseillé il y a des années. Les modifications n’affectent pas les fonctionnalités de lecture, il est transparent et compatible par défaut, mais garantit que tous les nouveaux fichiers Parquet de votre table Delta Lake sont écrits de manière plus efficace et plus future.
Nous publions également une implémentation plus rapide de la commande OPTIMIZE, ce qui fait qu’elle ignore déjà les fichiers triés sur V.
Prise en charge des captures instantanées des travaux notebook en cours
Chronologie estimée de la publication : Q1 2025
Type de version : préversion publique
Cette fonctionnalité permet aux utilisateurs d’afficher une capture instantanée notebook pendant son exécution, ce qui est essentiel pour surveiller la progression et résoudre les problèmes de performances. Les utilisateurs peuvent voir le code source d’origine, les paramètres d’entrée et les sorties de cellule pour mieux comprendre le travail Spark et suivre la progression de l’exécution Spark au niveau de la cellule. Les utilisateurs peuvent également examiner la sortie des cellules terminées pour valider la précision de l’application Spark et estimer le travail restant. En outre, toutes les erreurs ou exceptions provenant de cellules déjà exécutées sont affichées, ce qui permet aux utilisateurs d’identifier et de résoudre les problèmes au début.
Prise en charge de RLS/CLS pour Spark et Lakehouse
Chronologie estimée de la publication : Q1 2025
Type de version : préversion publique
La fonctionnalité permet aux utilisateurs d’implémenter des stratégies de sécurité pour l’accès aux données dans le moteur Spark. Les utilisateurs peuvent définir la sécurité au niveau de l’objet, de la ligne ou de la colonne, en s’assurant que les données sont sécurisées comme définies par ces stratégies lorsqu’elles sont accessibles via Fabric Spark et sont alignées avec l’initiative OneSecurity activée dans Microsoft Fabric.
Connecteur Spark pour Fabric Data Warehouse - Disponibilité générale
Chronologie estimée de la publication : Q1 2025
Type de publication : Disponibilité générale
Le connecteur Spark pour Microsoft Fabric Data Warehouse permet aux développeurs Spark et aux scientifiques des données d’accéder aux données d’un entrepôt et du point de terminaison d’analytique SQL d’un lakehouse. Il offre une API Spark simplifiée, extrait la complexité sous-jacente et fonctionne avec une seule ligne de code, tout en respectant les modèles de sécurité tels que la sécurité au niveau de l’objet (OLS), la sécurité au niveau des lignes (RLS) et la sécurité au niveau des colonnes (CLS).
Fonctionnalités livrées
Possibilité de trier et de filtrer des tables et des dossiers dans Lakehouse
Expédié (Q4 2024)
Type de publication : Disponibilité générale
Cette fonctionnalité permet aux clients de trier et de filtrer leurs tables et dossiers dans Lakehouse par plusieurs méthodes différentes, notamment par ordre alphabétique, date de création, etc.
Blocs-notes dans une application
Expédié (Q4 2024)
Type de version : préversion publique
Les applications d’organisation sont disponibles en tant que nouvel élément dans Fabric et vous pouvez inclure des notebooks en même temps que des rapports Et tableaux de bord Power BI dans les applications Fabric et les distribuer aux utilisateurs professionnels. Les consommateurs d’applications peuvent interagir avec des widgets et des visuels dans le notebook, en tant que mécanisme de création de rapports et d’exploration de données alternatif. Cela vous permet de créer et de partager des histoires riches et attrayantes avec vos données.
Extension VSCode Core pour Fabric
Expédié (Q3 2024)
Type de version : préversion publique
L’extension VSCode core pour Fabric fournit une prise en charge commune des développeurs pour les services Fabric.
Notebook T-SQL
Expédié (Q3 2024)
Type de version : préversion publique
Les notebooks Fabric prennent en charge le langage T-SQL pour consommer des données sur Data Warehouse. En ajoutant un point de terminaison d’entrepôt de données ou d’analytique SQL à un notebook, les développeurs T-SQL peuvent exécuter des requêtes directement sur le point de terminaison connecté. Les analystes BI peuvent également effectuer des requêtes portant sur plusieurs bases de données pour collecter des insights auprès de plusieurs entrepôts et points de terminaison d’analytique SQL. Les notebooks T-SQL offrent une excellente alternative de création aux outils existants pour les utilisateurs SQL et incluent des fonctionnalités natives Fabric, telles que le partage, l’intégration git et la collaboration.
VS Code pour le web - prise en charge du débogage
Expédié (Q3 2024)
Type de version : préversion publique
Visual Studio Code pour le web est actuellement pris en charge en préversion pour les scénarios de création et d’exécution. Nous ajoutons à la liste des fonctionnalités la possibilité de déboguer du code à l’aide de cette extension pour le notebook.
Concurrence élevée dans les pipelines
Expédié (Q3 2024)
Type de publication : Disponibilité générale
En plus de la concurrence élevée dans les notebooks, nous allons également activer la concurrence élevée dans les pipelines. Cette fonctionnalité vous permet d’exécuter plusieurs notebooks dans un pipeline avec une seule session.
Prise en charge du schéma et espace de travail dans l’espace de noms dans Lakehouse
Expédié (Q3 2024)
Type de version : préversion publique
Cela permet d’organiser les tables à l’aide de schémas et d’interroger des données entre les espaces de travail.
Moteur d’exécution natif Spark
Expédié (Q2 2024)
Type de version : préversion publique
Le moteur d’exécution natif est une amélioration révolutionnaire pour les exécutions de travaux Apache Spark dans Microsoft Fabric. Ce moteur vectorisé optimise les performances et l’efficacité de vos requêtes Spark en les exécutant directement sur votre infrastructure lakehouse. L’intégration transparente du moteur signifie qu’elle ne nécessite aucune modification du code et évite le verrouillage du fournisseur. Il prend en charge les API Apache Spark et est compatible avec Runtime 1.2 (Spark 3.4) et fonctionne avec les formats Parquet et Delta. Quel que soit l’emplacement de vos données dans OneLake ou si vous accédez aux données via des raccourcis, le moteur d’exécution natif optimise l’efficacité et les performances
Connecteur Spark pour Fabric Data Warehouse
Expédié (Q2 2024)
Type de version : préversion publique
Spark Connector pour Fabric DW (Data Warehouse) permet à un développeur Spark ou à un scientifique des données d’accéder aux données de Fabric Data Warehouse avec une API Spark simplifiée, qui fonctionne littéralement avec une seule ligne de code. Il offre une possibilité d’interroger les données, en parallèle, à partir de l’entrepôt de données Fabric afin qu’elle s’adapte à l’augmentation du volume de données et respecte le modèle de sécurité (OLS/RLS/CLS) défini au niveau de l’entrepôt de données lors de l’accès à la table ou à la vue. Cette première version prend en charge la lecture des données uniquement et la prise en charge de l’écriture de données sera bientôt disponible.
API Microsoft Fabric pour GraphQL
Expédié (Q2 2024)
Type de version : préversion publique
L’API pour GraphQL permet aux ingénieurs données Fabric, aux scientifiques, aux architectes de solutions de données d’exposer et d’intégrer facilement les données Fabric, pour des applications analytiques plus réactives, performantes et riches, tirant parti de la puissance et de la flexibilité de GraphQL.
Créer et attacher des environnements
Expédié (Q2 2024)
Type de publication : Disponibilité générale
Pour personnaliser vos expériences Spark à un niveau plus précis, vous pouvez créer et attacher des environnements à vos blocs-notes et travaux Spark. Dans un environnement, vous pouvez installer des bibliothèques, configurer un nouveau pool, définir des propriétés Spark et charger des scripts dans un système de fichiers. Cela vous offre davantage de flexibilité et de contrôle sur vos charges de travail Spark, sans affecter les paramètres par défaut de l’espace de travail. Dans le cadre de la disponibilité générale, nous apportons diverses améliorations aux environnements, notamment la prise en charge des API et l’intégration CI/CD.
Mise en file d’attente de travaux pour les travaux de notebook
Expédié (Q2 2024)
Type de publication : Disponibilité générale
Cette fonctionnalité permet aux notebooks Spark planifiés d’être mis en file d’attente lorsque l’utilisation de Spark est à son nombre maximal de travaux qu’elle peut exécuter en parallèle, puis d’exécuter une fois l’utilisation supprimée sous le nombre maximal de travaux parallèles autorisés.
Admission optimiste des travaux pour Fabric Spark
Expédié (Q2 2024)
Type de publication : Disponibilité générale
Avec l’admission du travail optimiste, Fabric Spark réserve uniquement le nombre minimal de cœurs qu’un travail doit démarrer, en fonction du nombre minimal de nœuds auxquels le travail peut effectuer un scale-down. Cela permet à davantage d’emplois d’être admis s’il y a suffisamment de ressources pour répondre aux exigences minimales. Si un travail doit évoluer ultérieurement, les demandes de scale-up sont approuvées ou rejetées en fonction des cœurs disponibles dans la capacité.
Autotune Spark
Expédié (Q1 2024)
Type de version : préversion publique
Autotune utilise le Machine Learning pour analyser automatiquement les exécutions précédentes de vos travaux Spark et écouter les configurations pour optimiser les performances. Il configure la façon dont vos données sont partitionnée, jointes et lues par Spark. De cette façon, il améliore considérablement les performances. Nous avons vu que les travaux clients s’exécutent 2x plus rapidement avec cette fonctionnalité.