Tabelle Lakehouse e Delta Lake
Microsoft Fabric Lakehouse è una piattaforma di architettura dei dati per l'archiviazione, la gestione e l'analisi di dati strutturati e non strutturati in un'unica posizione. Per ottenere un accesso ai dati senza soluzione di continuità in tutti i motori di calcolo in Microsoft Fabric, come formato tabella unificato è stato scelto Delta Lake.
Salvando i dati in Lakehouse usando funzionalità come Carica in tabelle o i metodi descritti in Opzioni per ottenere i dati in Fabric Lakehouse, tutti i dati vengono salvati in formato Delta.
Per un'introduzione più completa al formato tabella Delta Lake, seguire i collegamenti nella sezione Passaggi successivi.
Big Data, Apache Spark e formati tabella legacy
Il runtime per Apache Spark di Microsoft Fabric usa la stessa base del runtime di Azure Synapse Analytics per Apache Spark, ma contiene differenze principali per offrire un comportamento più semplificato in tutti i motori nel servizio Microsoft Fabric. In Microsoft Fabric, le funzionalità principali delle prestazioni sono attivate per impostazione predefinita. Gli utenti avanzati di Apache Spark possono ripristinare le configurazioni ai valori precedenti per allinearsi meglio a scenari specifici.
Microsoft Fabric Lakehouse e il motore Apache Spark supportano tutti i tipi di tabella, gestiti e non gestiti; sono incluse le visualizzazioni e i normali formati tabella Hive non Delta. Le tabelle definite usando PARQUET, CSV, AVRO, JSON e qualsiasi formato di file compatibile con Apache Hive funzionano come previsto.
L'esperienza dell'interfaccia utente di Esplora lakehouse varia a seconda del tipo di tabella. Attualmente, Esplora lakehouse esegue il rendering solo di oggetti tabella.
Differenze di configurazione con Azure Synapse Analytics
La tabella seguente contiene le differenze di configurazione tra Azure Synapse Analytics e il runtime di Microsoft Fabric per Apache Spark.
Configurazione di Apache Spark | Valore di Microsoft Fabric | Valore di Azure Synapse Analytics | Note |
---|---|---|---|
spark.sql.sources.default | delta | parquet | Formato tabella predefinito |
spark.sql.parquet.vorder.enabled | true | N/D | Writer V-Order |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | N/D | Limite delle dimensioni della pagina del dizionario per V-Order |
spark.microsoft.delta.optimizeWrite.enabled | true | unset (false) | Scrittura ottimizzata |
Individuazione automatica delle tabelle
Esplora lakehouse offre una visualizzazione ad albero degli oggetti nell'elemento Microsoft Fabric Lakehouse. Offre una funzionalità chiave per l'individuazione e la visualizzazione di tabelle descritte nel repository di metadati e nell'archiviazione OneLake. I riferimenti tabella vengono visualizzati nella sezione Tables
dell'interfaccia utente di Esplora lakehouse. L'individuazione automatica si applica anche alle tabelle definite tramite collegamenti OneLake.
Tabelle tramite collegamenti
Microsoft Fabric Lakehouse supporta tabelle definite tramite collegamenti OneLake per garantire la massima compatibilità e senza spostamento dei dati. La tabella seguente contiene le procedure consigliate per lo scenario per ogni tipo di elemento quando viene usato tramite collegamenti.
Destinazione del collegamento | Dove creare il collegamento | Procedura consigliata |
---|---|---|
Tabella Delta Lake | Sezione Tables |
Se nella destinazione esistono più tabelle, creare un collegamento per tabella. |
Cartelle con file | Sezione Files |
Usare Apache Spark per usare la destinazione direttamente tramite percorsi relativi. Caricare i dati in tabelle Delta native di Lakehouse per ottenere le massime prestazioni. |
Tabelle Apache Hive legacy | Sezione Files |
Usare Apache Spark per usare la destinazione direttamente tramite percorsi relativi o creare un riferimento al catalogo di metadati usando la sintassi CREATE EXTERNAL TABLE . Caricare i dati in tabelle Delta native di Lakehouse per ottenere le massime prestazioni. |
Carica in tabelle
Microsoft Fabric Lakehouse offre un'interfaccia utente comoda e produttiva per semplificare il caricamento dei dati in tabelle Delta. La funzionalità Carica in tabelle consente a un'esperienza visiva per caricare formati di file comuni in Delta per aumentare la produttività analitica per tutti gli utenti. Per altre informazioni sulla funzionalità Carica in tabelle, vedere la documentazione di riferimento Carica in tabelle di Lakehouse.
Ottimizzazione delle tabella Delta Lake
Mantenere le tabelle in forma per l'ampio ambito di scenari di analisi non è facile. Microsoft Fabric Lakehouse consente proattivamente ai parametri importanti di ridurre al minimo i problemi comuni associati alle tabelle Big Data, ad esempio la compattazione e le dimensioni piccole dei file, e per ottimizzare le prestazioni delle query. Esistono comunque molti scenari in cui tali parametri richiedono modifiche. L'articolo Ottimizzazione delle tabelle Delta Lake e V-Order illustra alcuni scenari chiave e fornisce una guida approfondita su come gestire in modo efficiente le tabelle Delta per ottenere le massime prestazioni.