Utilizzare lakehouse di Microsoft Fabric

Completato

Ora che si conoscono le funzionalità principali di un lakehouse Microsoft Fabric, è possibile esaminarne le modalità di utilizzo.

Creare ed esplorare una lakehouse

Quando si crea un nuovo lakehouse, vengono creati automaticamente tre elementi di dati diversi nell’area di lavoro.

  • Il lakehouse contiene collegamenti, cartelle, file e tabelle.
  • Il modello semantico (impostazione predefinita) offre un'origine dati semplice per gli sviluppatori di report di Power BI.
  • L'endpoint di Analisi SQL consente l'accesso in sola lettura ai dati di query con SQL.

Screenshot dei tre elementi di Lakehouse come descritto.

È possibile usare i dati nella lakehouse in due modalità:

  • Il lakehouse consente di aggiungere e interagire con tabelle, file e cartelle nel lakehouse.
  • L'endpoint di analisi SQL consente di usare SQL per eseguire query sulle tabelle nella lakehouse e gestire il modello semantico relazionale.

Screenshot delle due modalità Lakehouse Explorer.

Inserire dati in una lakehouse

L'inserimento di dati nel lakehouse è il primo passaggio del processo ETL. Usare uno dei metodi seguenti per inserire i dati nel lakehouse.

  • Caricamento: Caricare i file locali.
  • Flussi di dati Gen2: Importare e trasformare i dati usando Power Query.
  • Notebooks: Usare Apache Spark per inserire, trasformare e caricare i dati.
  • Pipeline di Data factory: Usare l'attività Copia dati.

Questi dati possono quindi essere caricati direttamente in file o tabelle. Prendere in considerazione il modello di caricamento dei dati durante l'inserimento di dati per determinare se è necessario caricare tutti i dati non elaborati come file prima dell’elaborazione o usare tabelle di staging.

Le definizioni dei processi Spark possono essere usate anche per inviare processi batch/streaming ai cluster Spark. Caricando i file binari dall'output di compilazione di linguaggi diversi (ad esempio .jar da Java), è possibile applicare logica di trasformazione diversa ai dati ospitati in un lakehouse. Oltre al file binario, è possibile personalizzare ulteriormente il comportamento del processo caricando più librerie e argomenti della riga di comando.

Nota

Per altre informazioni, vedere la documentazione relativa a Creare una definizione del processo Apache Spark.

Accedere ai dati usando i collegamenti

Un altro modo per accedere e usare i dati in Fabric consiste nell'usare i collegamenti. I collegamenti consentono di integrare i dati nella lakehouse mantenendoli archiviati nell’archiviazione esterna.

I collegamenti sono utili quando è necessario recuperare i dati che si trovano in un altro account di archiviazione o addirittura in un altro provider di servizi cloud. All'interno del lakehouse è possibile creare collegamenti per accedere a diversi account di archiviazione e ad altri elementi di Fabric, ad esempio data warehouse, database KQL e altri lakehouse.

Le autorizzazioni e le credenziali dei dati di origine sono tutte gestite da OneLake. Quando si accede ai dati tramite un collegamento a un'altra sede OneLake, l'identità dell'utente chiamante verrà utilizzata per autorizzare l'accesso ai dati nel percorso di destinazione del collegamento. L'utente deve disporre delle autorizzazioni nella posizione di destinazione per leggere i dati.

I collegamenti possono essere creati sia nelle lakehouse che nei database KQL e vengono visualizzati come una cartella nel lake. Ciò consente a Spark, SQL, Real-Time intelligence e Analysis Services di usare collegamenti per l'esecuzione di query sui dati.

Nota

Per altre informazioni sull’uso dei collegamenti, vedere la documentazione dei collegamenti a OneLake nella documentazione di Microsoft Fabric.