Utilizzare lakehouse di Microsoft Fabric

6 minuti

Ora che si conoscono le funzionalità principali di un lakehouse Microsoft Fabric, è possibile esaminarne le modalità di utilizzo.

Creare ed esplorare una lakehouse

Quando si crea un nuovo lakehouse, vengono creati automaticamente tre elementi di dati diversi nell’area di lavoro.

Il lakehouse contiene collegamenti, cartelle, file e tabelle.
Il modello semantico (impostazione predefinita) offre un'origine dati semplice per gli sviluppatori di report di Power BI.
L'endpoint di Analisi SQL consente l'accesso in sola lettura ai dati di query con SQL.

Screenshot dei tre elementi di Lakehouse come descritto.

È possibile usare i dati nella lakehouse in due modalità:

Il lakehouse consente di aggiungere e interagire con tabelle, file e cartelle nel lakehouse.
L'endpoint di analisi SQL consente di usare SQL per eseguire query sulle tabelle nella lakehouse e gestire il modello semantico relazionale.

Screenshot delle due modalità Lakehouse Explorer.

Inserire dati in una lakehouse

L'inserimento di dati nel lakehouse è il primo passaggio del processo ETL. Usare uno dei metodi seguenti per inserire i dati nel lakehouse.

Caricamento: Caricare i file locali.
Flussi di dati Gen2: Importare e trasformare i dati usando Power Query.
Notebooks: Usare Apache Spark per inserire, trasformare e caricare i dati.
Pipeline di Data factory: Usare l'attività Copia dati.

Questi dati possono quindi essere caricati direttamente in file o tabelle. Prendere in considerazione il modello di caricamento dei dati durante l'inserimento di dati per determinare se è necessario caricare tutti i dati non elaborati come file prima dell’elaborazione o usare tabelle di staging.

Le definizioni dei processi Spark possono essere usate anche per inviare processi batch/streaming ai cluster Spark. Caricando i file binari dall'output di compilazione di linguaggi diversi (ad esempio .jar da Java), è possibile applicare logica di trasformazione diversa ai dati ospitati in un lakehouse. Oltre al file binario, è possibile personalizzare ulteriormente il comportamento del processo caricando più librerie e argomenti della riga di comando.

Nota

Per altre informazioni, vedere la documentazione relativa a Creare una definizione del processo Apache Spark.

Accedere ai dati usando i collegamenti

Un altro modo per accedere e usare i dati in Fabric consiste nell'usare i collegamenti. I collegamenti consentono di integrare i dati nella lakehouse mantenendoli archiviati nell’archiviazione esterna.

I collegamenti sono utili quando è necessario recuperare i dati che si trovano in un altro account di archiviazione o addirittura in un altro provider di servizi cloud. All'interno del lakehouse è possibile creare collegamenti per accedere a diversi account di archiviazione e ad altri elementi di Fabric, ad esempio data warehouse, database KQL e altri lakehouse.

Le autorizzazioni e le credenziali dei dati di origine sono tutte gestite da OneLake. Quando si accede ai dati tramite un collegamento a un'altra sede OneLake, l'identità dell'utente chiamante verrà utilizzata per autorizzare l'accesso ai dati nel percorso di destinazione del collegamento. L'utente deve disporre delle autorizzazioni nella posizione di destinazione per leggere i dati.

I collegamenti possono essere creati sia nelle lakehouse che nei database KQL e vengono visualizzati come una cartella nel lake. Ciò consente a Spark, SQL, Real-Time intelligence e Analysis Services di usare collegamenti per l'esecuzione di query sui dati.

Nota

Per altre informazioni sull’uso dei collegamenti, vedere la documentazione dei collegamenti a OneLake nella documentazione di Microsoft Fabric.

Utilizzare lakehouse di Microsoft Fabric

Creare ed esplorare una lakehouse

Inserire dati in una lakehouse

Accedere ai dati usando i collegamenti

Commenti e suggerimenti