Novità e pianificazione di Fabric Ingegneria dei dati in Microsoft Fabric

Articolo
11/20/2024

Importante

I piani di versione descrivono le funzionalità che potrebbero essere state rilasciate o meno. Le sequenze temporali di consegna e le funzionalità proiettate possono cambiare o non essere spedite. Per altre informazioni, vedere Criteri Microsoft.

Fabric Ingegneria dei dati consente ai data engineer di trasformare i dati su larga scala usando Spark e di creare l'architettura lakehouse.

Lakehouse per tutti i dati aziendali: il lakehouse combina il meglio del data lake e del data warehouse in un'unica esperienza. Consente agli utenti di inserire, preparare e condividere i dati dell'organizzazione in un formato aperto nel lake. In seguito è possibile accedervi tramite più motori, ad esempio Spark, T-SQL e Power BI. Offre diverse opzioni di integrazione dei dati, ad esempio flussi di dati e pipeline, collegamenti a origini dati esterne e funzionalità di condivisione dei prodotti dati.

Motore Spark e runtime con prestazioni elevate: l'ingegneria dei dati di Fabric offre ai clienti un runtime Spark ottimizzato con le versioni più recenti di Spark, Delta e Python. Usa Delta Lake come formato di tabella comune per tutti i motori, consentendo una semplice condivisione dei dati e la creazione di report senza spostamento dei dati. Il runtime include ottimizzazioni spark, migliorando le prestazioni delle query senza alcuna configurazione. Offre anche pool di avvio e modalità di concorrenza elevata per velocizzare e riutilizzare le sessioni Spark, risparmiando tempo e costi.

Amministratori e configurazioni spark: gli amministratori dell'area di lavoro con autorizzazioni appropriate possono creare e configurare pool personalizzati per ottimizzare le prestazioni e i costi dei carichi di lavoro Spark. Gli autori possono configurare gli ambienti per installare librerie, selezionare la versione di runtime e impostare le proprietà di Spark per i notebook e i processi Spark.

Esperienza sviluppatore: gli sviluppatori possono usare notebook, processi Spark o l'IDE preferito per creare ed eseguire codice Spark in Fabric. Possono accedere in modo nativo ai dati lakehouse, collaborare con altri utenti, installare librerie, tenere traccia della cronologia, eseguire il monitoraggio in linea e ottenere consigli da Spark Advisor. Possono anche usare Data Wrangler per preparare facilmente i dati con un'interfaccia utente con poco codice.

Integrazione della piattaforma: tutti gli elementi di ingegneria dei dati di Fabric, inclusi notebook, processi Spark, ambienti e lakehouse, sono integrati profondamente nella piattaforma Fabric (funzionalità di gestione delle informazioni aziendali, derivazione, etichette di riservatezza e verifica dell'autenticità).

Aree di investimento

Funzionalità	Timeline di rilascio stimata
Notebook Python	4° trimestre 2024
ArcGIS GeoAnalytics per Microsoft Fabric Spark	4° trimestre 2024
Installazione di librerie dall'account di archiviazione di ADLS Gen2	4° trimestre 2024
Controllo delle versioni live dei notebook	Q1 2025
Estensione satellite VSCode per funzioni dati utente in Fabric	Q1 2025
Funzioni dati utente in Fabric	Q1 2025
API di monitoraggio pubblico	Q1 2025
Metadati dei collegamenti lakehouse nelle pipeline git e di distribuzione	Q1 2025
Miglioramenti di Delta Lake nelle esperienze Spark	Q1 2025
Supporto per gli snapshot dei processi notebook in corso	Q1 2025
Supporto di RLS/CLS per Spark e Lakehouse	Q1 2025
Connettore Spark per Fabric Data Warehouse - Disponibilità generale	Q1 2025
Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse	Spedito (Q4 2024)
Notebook in un'app	Spedito (Q4 2024)
Estensione VSCode Core per Fabric	Spedito (Q3 2024)
Notebook T-SQL	Spedito (Q3 2024)
VS Code per il Web - Supporto del debug	Spedito (Q3 2024)
Concorrenza elevata nelle pipeline	Spedito (Q3 2024)
Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse	Spedito (Q3 2024)
Motore di esecuzione nativo Spark	Spedito (Q2 2 2024)
Connettore Spark per Fabric Data Warehouse	Spedito (Q2 2 2024)
API Microsoft Fabric per GraphQL	Spedito (Q2 2 2024)
Creare e collegare ambienti	Spedito (Q2 2 2024)
Accodamento processi per i processi notebook	Spedito (Q2 2 2024)
Ammissione ottimistica dei processi per Fabric Spark	Spedito (Q2 2 2024)
Ottimizzazione automatica di Spark	Spedito (Q1 2024)

Notebook Python

Sequenza temporale di rilascio stimata: Q4 2024

Tipo di versione: anteprima pubblica

I notebook di Fabric supportano un'esperienza Python pura. Questa nuova soluzione è destinata a sviluppatori di business intelligence e Scienziato dei dati che usano set di dati più piccoli (fino a pochi GB) e usano Pandas e Python come linguaggio principale. Grazie a questa nuova esperienza, saranno in grado di trarre vantaggio dal linguaggio Python nativo e dalle relative librerie e funzionalità native predefinite, sarà in grado di passare da una versione Python a un'altra (inizialmente saranno supportate due versioni) e infine trarre vantaggio con un migliore utilizzo delle risorse usando un computer 2VCore più piccolo.

ArcGIS GeoAnalytics per Microsoft Fabric Spark

Sequenza temporale di rilascio stimata: Q4 2024

Tipo di versione: anteprima pubblica

Microsoft ed Esri hanno collaborato per portare l'analisi spaziale in Microsoft Fabric. Questa collaborazione introduce una nuova libreria, ArcGIS GeoAnalytics per Microsoft Fabric, consentendo un ampio set di analisi spaziali direttamente nei notebook di Microsoft Fabric Spark e nelle definizioni dei processi Spark (sia in Ingegneria dei dati che in esperienze/carichi di lavoro di data science).

Questa esperienza integrata di prodotto consente agli sviluppatori Spark o ai data scientist di usare in modo nativo le funzionalità di Esri per eseguire funzioni e strumenti GeoAnalytics di ArcGIS all'interno di Fabric Spark per la trasformazione spaziale, l'arricchimento e l'analisi del modello/tendenza dei dati, anche i Big Data, in diversi casi d'uso senza alcuna necessità di installazione e configurazione separate.

Installazione di librerie dall'account di archiviazione di ADLS Gen2

Sequenza temporale di rilascio stimata: Q4 2024

Tipo di versione: anteprima pubblica

Supporto di una nuova origine per consentire agli utenti di installare le librerie. Tramite la creazione di un canale conda/PyPI personalizzato, ospitato nell'account di archiviazione, gli utenti possono installare le librerie dal proprio account di archiviazione negli ambienti di infrastruttura.

Controllo delle versioni live dei notebook

Sequenza temporale di rilascio stimata: Q1 2025

Tipo di versione: anteprima pubblica

Con il controllo delle versioni in tempo reale gli sviluppatori di Notebook di Fabric possono tenere traccia della cronologia delle modifiche apportate ai notebook, confrontare verifiche diverse e ripristinare le versioni precedenti, se necessario.

Estensione satellite VSCode per funzioni dati utente in Fabric

Sequenza temporale di rilascio stimata: Q1 2025

Tipo di versione: anteprima pubblica

L'estensione satellite VSCode per Funzioni dati utente fornirà supporto per gli sviluppatori (modifica, compilazione, debug, pubblicazione) per Funzioni dati utente in Fabric.

Funzioni dati utente in Fabric

Sequenza temporale di rilascio stimata: Q1 2025

Tipo di versione: anteprima pubblica

Funzioni dati utente fornirà un potente meccanismo per implementare e riesezionare la logica di business personalizzata e specializzata nei flussi di lavoro di data science e ingegneria dei dati di Fabric, aumentando l'efficienza e la flessibilità.

API di monitoraggio pubblico

Sequenza temporale di rilascio stimata: Q1 2025

Tipo di versione: anteprima pubblica

La funzionalità API di monitoraggio pubblico per Fabric Spark mira a esporre le API di monitoraggio di Spark, consentendo agli utenti di monitorare lo stato dei processi Spark, visualizzare le attività di esecuzione e accedere ai log a livello di codice. Questa funzionalità è allineata agli standard API pubblici, offrendo un'esperienza di monitoraggio senza problemi per le applicazioni Spark.

Metadati dei collegamenti lakehouse nelle pipeline git e di distribuzione

Sequenza temporale di rilascio stimata: Q1 2025

Tipo di versione: anteprima pubblica

Per offrire una storia interessante di gestione del ciclo di vita delle applicazioni, tenere traccia dei metadati degli oggetti in Git e supportare le pipeline di distribuzione è fondamentale. Nei moduli Ingegneria dei dati, poiché le aree di lavoro sono integrate in Git.

In questa prima iterazione, i collegamenti OneLake verranno distribuiti automaticamente tra le fasi e le aree di lavoro della pipeline. È possibile modificare il mapping delle connessioni di collegamento tra le varie fasi usando un nuovo elemento di Microsoft Fabric denominato libreria di variabili, assicurando l'isolamento corretto e la segmentazione dell'ambiente previsti dai clienti.

Miglioramenti di Delta Lake nelle esperienze Spark

Sequenza temporale di rilascio stimata: Q1 2025

Tipo di versione: disponibilità generale

Avere impostazioni predefinite appropriate e allinearsi agli standard più recenti è la massima importanza per gli standard Delta Lake in Microsoft Fabric. INT64 sarà il nuovo tipo di codifica predefinito per tutti i valori di timestamp. Questo si allontana dalle codifiche INT96, deprecate anni fa da Apache Parquet. Le modifiche non influiscono sulle funzionalità di lettura, è trasparente e compatibile per impostazione predefinita, ma garantisce che tutti i nuovi file Parquet nella tabella Delta Lake vengano scritti in modo più efficiente e futuro.

Viene rilasciata anche un'implementazione più rapida del comando OPTIMIZE, che consente di ignorare i file già ordinati V.We're also releasing a faster implementation of the OPTIMIZE command, making it skip already V-Ordered files.

Supporto per gli snapshot dei processi notebook in corso

Sequenza temporale di rilascio stimata: Q1 2025

Tipo di versione: anteprima pubblica

Questa funzionalità consente agli utenti di visualizzare uno snapshot del notebook mentre è ancora in esecuzione, che è essenziale per il monitoraggio dello stato di avanzamento e la risoluzione dei problemi di prestazioni. Gli utenti possono visualizzare il codice sorgente originale, i parametri di input e gli output delle celle per comprendere meglio il processo Spark e tenere traccia dello stato di avanzamento dell'esecuzione spark a livello di cella. Gli utenti possono anche esaminare l'output delle celle completate per convalidare l'accuratezza dell'applicazione Spark e stimare il lavoro rimanente. Inoltre, vengono visualizzati eventuali errori o eccezioni delle celle già eseguite, consentendo agli utenti di identificare e risolvere i problemi in anticipo.

Supporto di RLS/CLS per Spark e Lakehouse

Sequenza temporale di rilascio stimata: Q1 2025

Tipo di versione: anteprima pubblica

La funzionalità consente agli utenti di implementare criteri di sicurezza per l'accesso ai dati all'interno del motore Spark. Gli utenti possono definire la sicurezza a livello di oggetto, riga o colonna, assicurandosi che i dati siano protetti come definito da questi criteri quando si accede tramite Fabric Spark e siano allineati all'iniziativa OneSecurity abilitata in Microsoft Fabric.

Connettore Spark per Fabric Data Warehouse - Disponibilità generale

Sequenza temporale di rilascio stimata: Q1 2025

Tipo di versione: disponibilità generale

Il connettore Spark per Microsoft Fabric Data Warehouse consente agli sviluppatori Spark e ai data scientist di accedere e lavorare con i dati di un warehouse e l'endpoint di analisi SQL di una lakehouse. Offre un'API Spark semplificata, astrae la complessità sottostante e opera con una sola riga di codice, mantenendo al contempo modelli di sicurezza come ols a livello di oggetto, sicurezza a livello di riga e sicurezza a livello di colonna (CLS).

Funzionalità spedite

Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse

Spedito (Q4 2024)

Tipo di versione: disponibilità generale

Questa funzionalità consente ai clienti di ordinare e filtrare le tabelle e le cartelle in Lakehouse in base a diversi metodi, tra cui alfabeticamente, data di creazione e altro ancora.

Notebook in un'app

Spedito (Q4 2024)

Tipo di versione: anteprima pubblica

Le app dell'organizzazione sono disponibili come nuovo elemento in Fabric ed è possibile includere notebook insieme ai report e ai dashboard di Power BI nelle app fabric e distribuirli agli utenti aziendali. I consumer di app possono interagire con widget e oggetti visivi nel notebook, come meccanismo alternativo di creazione di report ed esplorazione dei dati. In questo modo è possibile creare e condividere storie ricche e coinvolgenti con i dati.

Estensione VSCode Core per Fabric

Spedito (Q3 2024)

Tipo di versione: anteprima pubblica

L'estensione VSCode core per Fabric fornirà supporto comune per gli sviluppatori per i servizi di Fabric.

Notebook T-SQL

Spedito (Q3 2024)

Tipo di versione: anteprima pubblica

I notebook di Fabric supportano il linguaggio T-SQL per usare i dati in Data Warehouse. Aggiungendo un endpoint di analisi SQL o data warehouse a un notebook, gli sviluppatori T-SQL possono eseguire query direttamente nell'endpoint connesso. Gli analisti bi possono anche eseguire query tra database per raccogliere informazioni dettagliate da più warehouse ed endpoint di analisi SQL. I notebook T-SQL offrono un'ottima alternativa alla creazione degli strumenti esistenti agli utenti SQL e includono funzionalità native di Fabric, ad esempio, condivisione, integrazione e collaborazione GIT.

VS Code per il Web - Supporto del debug

Spedito (Q3 2024)

Tipo di versione: anteprima pubblica

Visual Studio Code per il Web è attualmente supportato in anteprima per gli scenari di creazione ed esecuzione. Si aggiunge all'elenco delle funzionalità la possibilità di eseguire il debug del codice usando questa estensione per notebook.

Concorrenza elevata nelle pipeline

Spedito (Q3 2024)

Tipo di versione: disponibilità generale

Oltre alla concorrenza elevata nei notebook, si abiliterà anche la concorrenza elevata nelle pipeline. Questa funzionalità consentirà di eseguire più notebook in una pipeline con una singola sessione.

Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse

Spedito (Q3 2024)

Tipo di versione: anteprima pubblica

Ciò consentirà di organizzare le tabelle usando schemi ed eseguire query sui dati tra aree di lavoro.

Motore di esecuzione nativo Spark

Spedito (Q2 2 2024)

Tipo di versione: anteprima pubblica

Il motore di esecuzione nativo costituisce un miglioramento eccezionale per le esecuzioni di processi di Apache Spark in Microsoft Fabric. Questo motore vettorializzato ottimizza le prestazioni e l'efficienza delle query Spark eseguendole direttamente nell'infrastruttura Lakehouse. Grazie alla totale integrazione del motore, non sono necessarie modifiche del codice e si evitano accordi esclusivi con i fornitori. Supporta le API Apache Spark ed è compatibile con Runtime 1.2 (Spark 3.4), e funziona con entrambi i formati Parquet e Delta. Indipendentemente dalla posizione dei dati all'interno di OneLake o se si accede ai dati tramite collegamenti, il motore di esecuzione nativo ottimizza l'efficienza e le prestazioni

Connettore Spark per Fabric Data Warehouse

Spedito (Q2 2 2024)

Tipo di versione: anteprima pubblica

Il connettore Spark per Fabric DW (Data Warehouse) consente a uno sviluppatore Spark o a un data scientist di accedere e lavorare sui dati di Fabric Data Warehouse con un'API Spark semplificata, che funziona letteralmente con una sola riga di codice. Offre la possibilità di eseguire query sui dati, in parallelo, dal data warehouse di Fabric in modo che venga ridimensionato con un volume di dati crescente e rispetta il modello di sicurezza (OLS/RLS/CLS) definito a livello di data warehouse durante l'accesso alla tabella o alla vista. Questa prima versione supporterà solo la lettura dei dati e il supporto per la scrittura dei dati sarà presto disponibile.

API Microsoft Fabric per GraphQL

Spedito (Q2 2 2024)

Tipo di versione: anteprima pubblica

L'API per GraphQL consentirà a data engineer, scienziati, architetti di soluzioni dati di Fabric di esporre e integrare facilmente i dati di Fabric, per applicazioni analitiche più reattive, efficienti e avanzate, sfruttando la potenza e la flessibilità di GraphQL.

Creare e collegare ambienti

Spedito (Q2 2 2024)

Tipo di versione: disponibilità generale

Per personalizzare le esperienze Spark a un livello più granulare, è possibile creare e collegare ambienti ai notebook e ai processi Spark. In un ambiente è possibile installare librerie, configurare un nuovo pool, impostare le proprietà di Spark e caricare script in un file system. Ciò offre maggiore flessibilità e controllo sui carichi di lavoro Spark, senza influire sulle impostazioni predefinite dell'area di lavoro. Come parte della disponibilità generale, stiamo apportando vari miglioramenti agli ambienti, tra cui il supporto api e l'integrazione CI/CD.

Accodamento processi per i processi notebook

Spedito (Q2 2 2024)

Tipo di versione: disponibilità generale

Questa funzionalità consente di accodare i notebook Spark pianificati quando l'utilizzo di Spark è al numero massimo di processi che può essere eseguito in parallelo e quindi eseguito una volta che l'utilizzo è sceso al di sotto del numero massimo di processi paralleli consentiti.

Ammissione ottimistica dei processi per Fabric Spark

Spedito (Q2 2 2024)

Tipo di versione: disponibilità generale

Con l'ammissione di processo ottimistica, Fabric Spark riserva solo il numero minimo di core che un processo deve avviare, in base al numero minimo di nodi che il processo può ridurre. Ciò consente di ammettere più posti di lavoro se sono presenti risorse sufficienti per soddisfare i requisiti minimi. Se un processo deve aumentare le prestazioni in un secondo momento, le richieste di aumento delle prestazioni verranno approvate o rifiutate in base ai core disponibili nella capacità.

Ottimizzazione automatica di Spark

Spedito (Q1 2024)

Tipo di versione: anteprima pubblica

Autotune usa l'apprendimento automatico per analizzare automaticamente le esecuzioni precedenti dei processi Spark e ottimizzare le configurazioni per ottimizzare le prestazioni. Configura il modo in cui i dati vengono partizionati, aggiunti e letti da Spark. In questo modo si miglioreranno significativamente le prestazioni. I processi dei clienti sono stati eseguiti più velocemente con questa funzionalità.

documentazione di Ingegneria dei dati in Microsoft Fabric

Condividi tramite

Novità e pianificazione di Fabric Ingegneria dei dati in Microsoft Fabric

Aree di investimento

Notebook Python

ArcGIS GeoAnalytics per Microsoft Fabric Spark

Installazione di librerie dall'account di archiviazione di ADLS Gen2

Controllo delle versioni live dei notebook

Estensione satellite VSCode per funzioni dati utente in Fabric

Funzioni dati utente in Fabric

API di monitoraggio pubblico

Metadati dei collegamenti lakehouse nelle pipeline git e di distribuzione

Miglioramenti di Delta Lake nelle esperienze Spark

Supporto per gli snapshot dei processi notebook in corso

Supporto di RLS/CLS per Spark e Lakehouse

Connettore Spark per Fabric Data Warehouse - Disponibilità generale

Funzionalità spedite

Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse

Notebook in un'app

Estensione VSCode Core per Fabric

Notebook T-SQL

VS Code per il Web - Supporto del debug

Concorrenza elevata nelle pipeline

Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse

Motore di esecuzione nativo Spark

Connettore Spark per Fabric Data Warehouse

API Microsoft Fabric per GraphQL

Creare e collegare ambienti

Accodamento processi per i processi notebook

Ammissione ottimistica dei processi per Fabric Spark

Ottimizzazione automatica di Spark

Risorse aggiuntive

Condividi tramite

Novità e pianificazione di Fabric Ingegneria dei dati in Microsoft Fabric

Aree di investimento

Notebook Python

ArcGIS GeoAnalytics per Microsoft Fabric Spark

Installazione di librerie dall'account di archiviazione di ADLS Gen2

Controllo delle versioni live dei notebook

Estensione satellite VSCode per funzioni dati utente in Fabric

Funzioni dati utente in Fabric

API di monitoraggio pubblico

Metadati dei collegamenti lakehouse nelle pipeline git e di distribuzione

Miglioramenti di Delta Lake nelle esperienze Spark

Supporto per gli snapshot dei processi notebook in corso

Supporto di RLS/CLS per Spark e Lakehouse

Connettore Spark per Fabric Data Warehouse - Disponibilità generale

Funzionalità spedite

Possibilità di ordinare e filtrare tabelle e cartelle in Lakehouse

Notebook in un'app

Estensione VSCode Core per Fabric

Notebook T-SQL

VS Code per il Web - Supporto del debug

Concorrenza elevata nelle pipeline

Supporto dello schema e area di lavoro nello spazio dei nomi in Lakehouse

Motore di esecuzione nativo Spark

Connettore Spark per Fabric Data Warehouse

API Microsoft Fabric per GraphQL

Creare e collegare ambienti

Accodamento processi per i processi notebook

Ammissione ottimistica dei processi per Fabric Spark

Ottimizzazione automatica di Spark

Contenuto correlato

Risorse aggiuntive