Novità e pianificazione di Fabric Ingegneria dei dati in Microsoft Fabric
Importante
I piani di versione descrivono le funzionalità che potrebbero essere state rilasciate o meno. Le sequenze temporali di consegna e le funzionalità proiettate possono cambiare o non essere spedite. Per altre informazioni, vedere Criteri Microsoft.
Fabric Ingegneria dei dati consente ai data engineer di trasformare i dati su larga scala usando Spark e di creare l'architettura lakehouse.
Lakehouse per tutti i dati aziendali: il lakehouse combina il meglio del data lake e del data warehouse in un'unica esperienza. Consente agli utenti di inserire, preparare e condividere i dati dell'organizzazione in un formato aperto nel lake. In seguito è possibile accedervi tramite più motori, ad esempio Spark, T-SQL e Power BI. Offre diverse opzioni di integrazione dei dati, ad esempio flussi di dati e pipeline, collegamenti a origini dati esterne e funzionalità di condivisione dei prodotti dati.
Motore Spark e runtime con prestazioni elevate: l'ingegneria dei dati di Fabric offre ai clienti un runtime Spark ottimizzato con le versioni più recenti di Spark, Delta e Python. Usa Delta Lake come formato di tabella comune per tutti i motori, consentendo una semplice condivisione dei dati e la creazione di report senza spostamento dei dati. Il runtime include ottimizzazioni spark, migliorando le prestazioni delle query senza alcuna configurazione. Offre anche pool di avvio e modalità di concorrenza elevata per velocizzare e riutilizzare le sessioni Spark, risparmiando tempo e costi.
Amministratori e configurazioni spark: gli amministratori dell'area di lavoro con autorizzazioni appropriate possono creare e configurare pool personalizzati per ottimizzare le prestazioni e i costi dei carichi di lavoro Spark. Gli autori possono configurare gli ambienti per installare librerie, selezionare la versione di runtime e impostare le proprietà di Spark per i notebook e i processi Spark.
Esperienza sviluppatore: gli sviluppatori possono usare notebook, processi Spark o l'IDE preferito per creare ed eseguire codice Spark in Fabric. Possono accedere in modo nativo ai dati lakehouse, collaborare con altri utenti, installare librerie, tenere traccia della cronologia, eseguire il monitoraggio in linea e ottenere consigli da Spark Advisor. Possono anche usare Data Wrangler per preparare facilmente i dati con un'interfaccia utente con poco codice.
Integrazione della piattaforma: tutti gli elementi di ingegneria dei dati di Fabric, inclusi notebook, processi Spark, ambienti e lakehouse, sono integrati profondamente nella piattaforma Fabric (funzionalità di gestione delle informazioni aziendali, derivazione, etichette di riservatezza e verifica dell'autenticità).
Aree di investimento
Notebook Python
Sequenza temporale di rilascio stimata: Q4 2024
Tipo di versione: anteprima pubblica
I notebook di Fabric supportano un'esperienza Python pura. Questa nuova soluzione è destinata a sviluppatori di business intelligence e Scienziato dei dati che usano set di dati più piccoli (fino a pochi GB) e usano Pandas e Python come linguaggio principale. Grazie a questa nuova esperienza, saranno in grado di trarre vantaggio dal linguaggio Python nativo e dalle relative librerie e funzionalità native predefinite, sarà in grado di passare da una versione Python a un'altra (inizialmente saranno supportate due versioni) e infine trarre vantaggio con un migliore utilizzo delle risorse usando un computer 2VCore più piccolo.
ArcGIS GeoAnalytics per Microsoft Fabric Spark
Sequenza temporale di rilascio stimata: Q4 2024
Tipo di versione: anteprima pubblica
Microsoft ed Esri hanno collaborato per portare l'analisi spaziale in Microsoft Fabric. Questa collaborazione introduce una nuova libreria, ArcGIS GeoAnalytics per Microsoft Fabric, consentendo un ampio set di analisi spaziali direttamente nei notebook di Microsoft Fabric Spark e nelle definizioni dei processi Spark (sia in Ingegneria dei dati che in esperienze/carichi di lavoro di data science).
Questa esperienza integrata di prodotto consente agli sviluppatori Spark o ai data scientist di usare in modo nativo le funzionalità di Esri per eseguire funzioni e strumenti GeoAnalytics di ArcGIS all'interno di Fabric Spark per la trasformazione spaziale, l'arricchimento e l'analisi del modello/tendenza dei dati, anche i Big Data, in diversi casi d'uso senza alcuna necessità di installazione e configurazione separate.
Installazione di librerie dall'account di archiviazione di ADLS Gen2
Sequenza temporale di rilascio stimata: Q4 2024
Tipo di versione: anteprima pubblica
Supporto di una nuova origine per consentire agli utenti di installare le librerie. Tramite la creazione di un canale conda/PyPI personalizzato, ospitato nell'account di archiviazione, gli utenti possono installare le librerie dal proprio account di archiviazione negli ambienti di infrastruttura.
Controllo delle versioni live dei notebook
Sequenza temporale di rilascio stimata: Q1 2025
Tipo di versione: anteprima pubblica
Con il controllo delle versioni in tempo reale gli sviluppatori di Notebook di Fabric possono tenere traccia della cronologia delle modifiche apportate ai notebook, confrontare verifiche diverse e ripristinare le versioni precedenti, se necessario.
Estensione satellite VSCode per funzioni dati utente in Fabric
Sequenza temporale di rilascio stimata: Q1 2025
Tipo di versione: anteprima pubblica
L'estensione satellite VSCode per Funzioni dati utente fornirà supporto per gli sviluppatori (modifica, compilazione, debug, pubblicazione) per Funzioni dati utente in Fabric.
Funzioni dati utente in Fabric
Sequenza temporale di rilascio stimata: Q1 2025
Tipo di versione: anteprima pubblica
Funzioni dati utente fornirà un potente meccanismo per implementare e riesezionare la logica di business personalizzata e specializzata nei flussi di lavoro di data science e ingegneria dei dati di Fabric, aumentando l'efficienza e la flessibilità.
API di monitoraggio pubblico
Sequenza temporale di rilascio stimata: Q1 2025
Tipo di versione: anteprima pubblica
La funzionalità API di monitoraggio pubblico per Fabric Spark mira a esporre le API di monitoraggio di Spark, consentendo agli utenti di monitorare lo stato dei processi Spark, visualizzare le attività di esecuzione e accedere ai log a livello di codice. Questa funzionalità è allineata agli standard API pubblici, offrendo un'esperienza di monitoraggio senza problemi per le applicazioni Spark.
Metadati dei collegamenti lakehouse nelle pipeline git e di distribuzione
Sequenza temporale di rilascio stimata: Q1 2025
Tipo di versione: anteprima pubblica
Per offrire una storia interessante di gestione del ciclo di vita delle applicazioni, tenere traccia dei metadati degli oggetti in Git e supportare le pipeline di distribuzione è fondamentale. Nei moduli Ingegneria dei dati, poiché le aree di lavoro sono integrate in Git.
In questa prima iterazione, i collegamenti OneLake verranno distribuiti automaticamente tra le fasi e le aree di lavoro della pipeline. È possibile modificare il mapping delle connessioni di collegamento tra le varie fasi usando un nuovo elemento di Microsoft Fabric denominato libreria di variabili, assicurando l'isolamento corretto e la segmentazione dell'ambiente previsti dai clienti.
Miglioramenti di Delta Lake nelle esperienze Spark
Sequenza temporale di rilascio stimata: Q1 2025
Tipo di versione: disponibilità generale
Avere impostazioni predefinite appropriate e allinearsi agli standard più recenti è la massima importanza per gli standard Delta Lake in Microsoft Fabric. INT64 sarà il nuovo tipo di codifica predefinito per tutti i valori di timestamp. Questo si allontana dalle codifiche INT96, deprecate anni fa da Apache Parquet. Le modifiche non influiscono sulle funzionalità di lettura, è trasparente e compatibile per impostazione predefinita, ma garantisce che tutti i nuovi file Parquet nella tabella Delta Lake vengano scritti in modo più efficiente e futuro.
Viene rilasciata anche un'implementazione più rapida del comando OPTIMIZE, che consente di ignorare i file già ordinati V.We're also releasing a faster implementation of the OPTIMIZE command, making it skip already V-Ordered files.
Supporto per gli snapshot dei processi notebook in corso
Sequenza temporale di rilascio stimata: Q1 2025
Tipo di versione: anteprima pubblica
Questa funzionalità consente agli utenti di visualizzare uno snapshot del notebook mentre è ancora in esecuzione, che è essenziale per il monitoraggio dello stato di avanzamento e la risoluzione dei problemi di prestazioni. Gli utenti possono visualizzare il codice sorgente originale, i parametri di input e gli output delle celle per comprendere meglio il processo Spark e tenere traccia dello stato di avanzamento dell'esecuzione spark a livello di cella. Gli utenti possono anche esaminare l'output delle celle completate per convalidare l'accuratezza dell'applicazione Spark e stimare il lavoro rimanente. Inoltre, vengono visualizzati eventuali errori o eccezioni delle celle già eseguite, consentendo agli utenti di identificare e risolvere i problemi in anticipo.
Supporto di RLS/CLS per Spark e Lakehouse
Sequenza temporale di rilascio stimata: Q1 2025
Tipo di versione: anteprima pubblica
La funzionalità consente agli utenti di implementare criteri di sicurezza per l'accesso ai dati all'interno del motore Spark. Gli utenti possono definire la sicurezza a livello di oggetto, riga o colonna, assicurandosi che i dati siano protetti come definito da questi criteri quando si accede tramite Fabric Spark e siano allineati all'iniziativa OneSecurity abilitata in Microsoft Fabric.
Connettore Spark per Fabric Data Warehouse - Disponibilità generale
Sequenza temporale di rilascio stimata: Q1 2025
Tipo di versione: disponibilità generale
Il connettore Spark per Microsoft Fabric Data Warehouse consente agli sviluppatori Spark e ai data scientist di accedere e lavorare con i dati di un warehouse e l'endpoint di analisi SQL di una lakehouse. Offre un'API Spark semplificata, astrae la complessità sottostante e opera con una sola riga di codice, mantenendo al contempo modelli di sicurezza come ols a livello di oggetto, sicurezza a livello di riga e sicurezza a livello di colonna (CLS).
Funzionalità spedite
Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse
Spedito (Q4 2024)
Tipo di versione: disponibilità generale
Questa funzionalità consente ai clienti di ordinare e filtrare le tabelle e le cartelle in Lakehouse in base a diversi metodi, tra cui alfabeticamente, data di creazione e altro ancora.
Notebook in un'app
Spedito (Q4 2024)
Tipo di versione: anteprima pubblica
Le app dell'organizzazione sono disponibili come nuovo elemento in Fabric ed è possibile includere notebook insieme ai report e ai dashboard di Power BI nelle app fabric e distribuirli agli utenti aziendali. I consumer di app possono interagire con widget e oggetti visivi nel notebook, come meccanismo alternativo di creazione di report ed esplorazione dei dati. In questo modo è possibile creare e condividere storie ricche e coinvolgenti con i dati.
Estensione VSCode Core per Fabric
Spedito (Q3 2024)
Tipo di versione: anteprima pubblica
L'estensione VSCode core per Fabric fornirà supporto comune per gli sviluppatori per i servizi di Fabric.
Notebook T-SQL
Spedito (Q3 2024)
Tipo di versione: anteprima pubblica
I notebook di Fabric supportano il linguaggio T-SQL per usare i dati in Data Warehouse. Aggiungendo un endpoint di analisi SQL o data warehouse a un notebook, gli sviluppatori T-SQL possono eseguire query direttamente nell'endpoint connesso. Gli analisti bi possono anche eseguire query tra database per raccogliere informazioni dettagliate da più warehouse ed endpoint di analisi SQL. I notebook T-SQL offrono un'ottima alternativa alla creazione degli strumenti esistenti agli utenti SQL e includono funzionalità native di Fabric, ad esempio, condivisione, integrazione e collaborazione GIT.
VS Code per il Web - Supporto del debug
Spedito (Q3 2024)
Tipo di versione: anteprima pubblica
Visual Studio Code per il Web è attualmente supportato in anteprima per gli scenari di creazione ed esecuzione. Si aggiunge all'elenco delle funzionalità la possibilità di eseguire il debug del codice usando questa estensione per notebook.
Concorrenza elevata nelle pipeline
Spedito (Q3 2024)
Tipo di versione: disponibilità generale
Oltre alla concorrenza elevata nei notebook, si abiliterà anche la concorrenza elevata nelle pipeline. Questa funzionalità consentirà di eseguire più notebook in una pipeline con una singola sessione.
Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse
Spedito (Q3 2024)
Tipo di versione: anteprima pubblica
Ciò consentirà di organizzare le tabelle usando schemi ed eseguire query sui dati tra aree di lavoro.
Motore di esecuzione nativo Spark
Spedito (Q2 2 2024)
Tipo di versione: anteprima pubblica
Il motore di esecuzione nativo costituisce un miglioramento eccezionale per le esecuzioni di processi di Apache Spark in Microsoft Fabric. Questo motore vettorializzato ottimizza le prestazioni e l'efficienza delle query Spark eseguendole direttamente nell'infrastruttura Lakehouse. Grazie alla totale integrazione del motore, non sono necessarie modifiche del codice e si evitano accordi esclusivi con i fornitori. Supporta le API Apache Spark ed è compatibile con Runtime 1.2 (Spark 3.4), e funziona con entrambi i formati Parquet e Delta. Indipendentemente dalla posizione dei dati all'interno di OneLake o se si accede ai dati tramite collegamenti, il motore di esecuzione nativo ottimizza l'efficienza e le prestazioni
Connettore Spark per Fabric Data Warehouse
Spedito (Q2 2 2024)
Tipo di versione: anteprima pubblica
Il connettore Spark per Fabric DW (Data Warehouse) consente a uno sviluppatore Spark o a un data scientist di accedere e lavorare sui dati di Fabric Data Warehouse con un'API Spark semplificata, che funziona letteralmente con una sola riga di codice. Offre la possibilità di eseguire query sui dati, in parallelo, dal data warehouse di Fabric in modo che venga ridimensionato con un volume di dati crescente e rispetta il modello di sicurezza (OLS/RLS/CLS) definito a livello di data warehouse durante l'accesso alla tabella o alla vista. Questa prima versione supporterà solo la lettura dei dati e il supporto per la scrittura dei dati sarà presto disponibile.
API Microsoft Fabric per GraphQL
Spedito (Q2 2 2024)
Tipo di versione: anteprima pubblica
L'API per GraphQL consentirà a data engineer, scienziati, architetti di soluzioni dati di Fabric di esporre e integrare facilmente i dati di Fabric, per applicazioni analitiche più reattive, efficienti e avanzate, sfruttando la potenza e la flessibilità di GraphQL.
Creare e collegare ambienti
Spedito (Q2 2 2024)
Tipo di versione: disponibilità generale
Per personalizzare le esperienze Spark a un livello più granulare, è possibile creare e collegare ambienti ai notebook e ai processi Spark. In un ambiente è possibile installare librerie, configurare un nuovo pool, impostare le proprietà di Spark e caricare script in un file system. Ciò offre maggiore flessibilità e controllo sui carichi di lavoro Spark, senza influire sulle impostazioni predefinite dell'area di lavoro. Come parte della disponibilità generale, stiamo apportando vari miglioramenti agli ambienti, tra cui il supporto api e l'integrazione CI/CD.
Accodamento processi per i processi notebook
Spedito (Q2 2 2024)
Tipo di versione: disponibilità generale
Questa funzionalità consente di accodare i notebook Spark pianificati quando l'utilizzo di Spark è al numero massimo di processi che può essere eseguito in parallelo e quindi eseguito una volta che l'utilizzo è sceso al di sotto del numero massimo di processi paralleli consentiti.
Ammissione ottimistica dei processi per Fabric Spark
Spedito (Q2 2 2024)
Tipo di versione: disponibilità generale
Con l'ammissione di processo ottimistica, Fabric Spark riserva solo il numero minimo di core che un processo deve avviare, in base al numero minimo di nodi che il processo può ridurre. Ciò consente di ammettere più posti di lavoro se sono presenti risorse sufficienti per soddisfare i requisiti minimi. Se un processo deve aumentare le prestazioni in un secondo momento, le richieste di aumento delle prestazioni verranno approvate o rifiutate in base ai core disponibili nella capacità.
Ottimizzazione automatica di Spark
Spedito (Q1 2024)
Tipo di versione: anteprima pubblica
Autotune usa l'apprendimento automatico per analizzare automaticamente le esecuzioni precedenti dei processi Spark e ottimizzare le configurazioni per ottimizzare le prestazioni. Configura il modo in cui i dati vengono partizionati, aggiunti e letti da Spark. In questo modo si miglioreranno significativamente le prestazioni. I processi dei clienti sono stati eseguiti più velocemente con questa funzionalità.