Condividi tramite


Tabelle Lakehouse e Delta Lake

Microsoft Fabric Lakehouse è una piattaforma di architettura dei dati per l'archiviazione, la gestione e l'analisi di dati strutturati e non strutturati in un'unica posizione. Per ottenere un accesso ai dati senza soluzione di continuità in tutti i motori di calcolo in Microsoft Fabric, come formato tabella unificato è stato scelto Delta Lake.

Salvando i dati in Lakehouse usando funzionalità come Carica in tabelle o i metodi descritti in Opzioni per ottenere i dati in Fabric Lakehouse, tutti i dati vengono salvati in formato Delta.

Per un'introduzione più completa al formato tabella Delta Lake, seguire i collegamenti nella sezione Passaggi successivi.

Big Data, Apache Spark e formati tabella legacy

Il runtime per Apache Spark di Microsoft Fabric usa la stessa base del runtime di Azure Synapse Analytics per Apache Spark, ma contiene differenze principali per offrire un comportamento più semplificato in tutti i motori nel servizio Microsoft Fabric. In Microsoft Fabric, le funzionalità principali delle prestazioni sono attivate per impostazione predefinita. Gli utenti avanzati di Apache Spark possono ripristinare le configurazioni ai valori precedenti per allinearsi meglio a scenari specifici.

Microsoft Fabric Lakehouse e il motore Apache Spark supportano tutti i tipi di tabella, gestiti e non gestiti; sono incluse le visualizzazioni e i normali formati tabella Hive non Delta. Le tabelle definite usando PARQUET, CSV, AVRO, JSON e qualsiasi formato di file compatibile con Apache Hive funzionano come previsto.

L'esperienza dell'interfaccia utente di Esplora lakehouse varia a seconda del tipo di tabella. Attualmente, Esplora lakehouse esegue il rendering solo di oggetti tabella.

Differenze di configurazione con Azure Synapse Analytics

La tabella seguente contiene le differenze di configurazione tra Azure Synapse Analytics e il runtime di Microsoft Fabric per Apache Spark.

Configurazione di Apache Spark Valore di Microsoft Fabric Valore di Azure Synapse Analytics Note
spark.sql.sources.default delta parquet Formato tabella predefinito
spark.sql.parquet.vorder.enabled true N/D Writer V-Order
spark.sql.parquet.vorder.dictionaryPageSize 2 GB N/D Limite delle dimensioni della pagina del dizionario per V-Order
spark.microsoft.delta.optimizeWrite.enabled true unset (false) Scrittura ottimizzata

Individuazione automatica delle tabelle

Esplora lakehouse offre una visualizzazione ad albero degli oggetti nell'elemento Microsoft Fabric Lakehouse. Offre una funzionalità chiave per l'individuazione e la visualizzazione di tabelle descritte nel repository di metadati e nell'archiviazione OneLake. I riferimenti tabella vengono visualizzati nella sezione Tables dell'interfaccia utente di Esplora lakehouse. L'individuazione automatica si applica anche alle tabelle definite tramite collegamenti OneLake.

Tabelle tramite collegamenti

Microsoft Fabric Lakehouse supporta tabelle definite tramite collegamenti OneLake per garantire la massima compatibilità e senza spostamento dei dati. La tabella seguente contiene le procedure consigliate per lo scenario per ogni tipo di elemento quando viene usato tramite collegamenti.

Destinazione del collegamento Dove creare il collegamento Procedura consigliata
Tabella Delta Lake Sezione Tables Se nella destinazione esistono più tabelle, creare un collegamento per tabella.
Cartelle con file Sezione Files Usare Apache Spark per usare la destinazione direttamente tramite percorsi relativi. Caricare i dati in tabelle Delta native di Lakehouse per ottenere le massime prestazioni.
Tabelle Apache Hive legacy Sezione Files Usare Apache Spark per usare la destinazione direttamente tramite percorsi relativi o creare un riferimento al catalogo di metadati usando la sintassi CREATE EXTERNAL TABLE. Caricare i dati in tabelle Delta native di Lakehouse per ottenere le massime prestazioni.

Carica in tabelle

Microsoft Fabric Lakehouse offre un'interfaccia utente comoda e produttiva per semplificare il caricamento dei dati in tabelle Delta. La funzionalità Carica in tabelle consente a un'esperienza visiva per caricare formati di file comuni in Delta per aumentare la produttività analitica per tutti gli utenti. Per altre informazioni sulla funzionalità Carica in tabelle, vedere la documentazione di riferimento Carica in tabelle di Lakehouse.

Ottimizzazione delle tabella Delta Lake

Mantenere le tabelle in forma per l'ampio ambito di scenari di analisi non è facile. Microsoft Fabric Lakehouse consente proattivamente ai parametri importanti di ridurre al minimo i problemi comuni associati alle tabelle Big Data, ad esempio la compattazione e le dimensioni piccole dei file, e per ottimizzare le prestazioni delle query. Esistono comunque molti scenari in cui tali parametri richiedono modifiche. L'articolo Ottimizzazione delle tabelle Delta Lake e V-Order illustra alcuni scenari chiave e fornisce una guida approfondita su come gestire in modo efficiente le tabelle Delta per ottenere le massime prestazioni.