Caricare dati usando una posizione esterna del catalogo Unity
Importante
Questa funzionalità è disponibile in anteprima pubblica.
Questo articolo descrive come usare l'interfaccia utente per aggiungere dati per creare una tabella gestita dai dati in Azure Data Lake Storage Gen2 usando una posizione esterna del catalogo Unity. Una posizione esterna è un oggetto che combina un percorso di archiviazione cloud con credenziali di archiviazione che autorizza l'accesso al percorso di archiviazione cloud.
Operazioni preliminari
Per eseguire le procedure descritte è necessario:
- Un'area di lavoro con il catalogo Unity abilitato. Per altre informazioni, vedere Configurare e gestire il catalogo Unity.
- Privilegio
READ FILES
nella posizione esterna. Per ulteriori informazioni, vedere Creare una posizione esterna per connettere la memorizzazione cloud ad Azure Databricks. - Il privilegio
CREATE TABLE
per lo schema in cui si vuole creare la tabella gestita, il privilegioUSE SCHEMA
per lo schema e il privilegioUSE CATALOG
nel catalogo padre. Consultare Privilegi del catalogo Unity e oggetti a protezione diretta.
Tipi di file
I seguenti tipi di file non sono supportati:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
Passaggio 1: confermare l'accesso alla posizione esterna
Per confermare l'accesso alla posizione esterna, eseguire le operazioni seguenti:
- Nella barra laterale dell’area di lavoro di Azure Databricks, fare clic su Catalogo.
- Nel catalogo Explorer, cliccare su Dati esterni>Posizioni esterne.
Passaggio 2: creare la tabella gestita
Per creare la tabella gestita, seguire i passaggi seguenti:
Nella barra laterale dell'area di lavoro fare clic su + Nuovo>Aggiungi dati.
Nell'interfaccia utente aggiungi dati fare clic su Azure Data Lake Storage.
Selezionare una località esterna dall'elenco a discesa.
Selezionare le cartelle e i file che si desidera caricare in Azure Databricks, quindi fare clic su Anteprima tabella.
Selezionare un catalogo e uno schema negli elenchi a discesa.
(Facoltativo) Modificare il nome della tabella.
(Facoltativo) Per impostare opzioni di formato avanzate per tipo di file, fare clic su Attributi avanzati, disattivare Rileva automaticamente il tipo di file e quindi selezionare un tipo di file.
Per un elenco delle opzioni di formato, vedere la sezione seguente.
(Facoltativo) Per modificare il nome della colonna, fare clic sulla casella di input nella parte superiore della colonna.
I nomi di colonna non supportano virgole, barre rovesciata o caratteri Unicode (ad esempio emoji).
(Facoltativo) Per modificare i tipi di colonna, fare clic sull'icona con il tipo.
Fare clic su Crea tabella.
Opzioni di formato del tipo di file
Sono disponibili le opzioni di formato seguenti, a seconda del tipo di file:
Opzione di formato | Descrizione | Tipi di file supportati |
---|---|---|
Column delimiter |
Carattere separatore tra le colonne. È consentito un solo carattere e la barra rovesciata non è supportata. Il valore predefinito è una virgola. |
CSV |
Escape character |
Carattere di escape da utilizzare durante l'analisi dei dati. Il valore predefinito è costituito dalle virgolette. |
CSV |
First row contains the header |
Questa opzione specifica se il file contiene un'intestazione. Abilitato per impostazione predefinita. |
CSV |
Automatically detect file type |
Rilevare automaticamente il tipo di file. Il valore predefinito è true . |
XML |
Automatically detect column types |
Rilevare automaticamente i tipi di colonna dal contenuto del file. È possibile modificare i tipi nell’anteprima della tabella. Se è impostato su false, tutti i tipi di colonna vengono dedotti come STRING. Abilitato per impostazione predefinita. |
- CSV - JSON - XML |
Rows span multiple lines |
Indica se il valore di una colonna può estendersi su più righe nel file. Disabilitato per impostazione predefinita. |
- CSV - JSON |
Merge the schema across multiple files |
Indica se dedurre lo schema tra più file e unire lo schema di ogni file. Abilitato per impostazione predefinita. |
CSV |
Allow comments |
Indica se i commenti sono consentiti nel file. Abilitato per impostazione predefinita. |
JSON |
Allow single quotes |
Indica se nel file sono consentite virgolette singole. Abilitato per impostazione predefinita. |
JSON |
Infer timestamp |
Indica se provare a dedurre stringhe di timestamp come TimestampType .Abilitato per impostazione predefinita. |
JSON |
Rescued data column |
Se salvare colonne che non corrispondono allo schema. Per maggiori informazioni, consultare Che cos’è una colonna di dati salvata?. Abilitato per impostazione predefinita. |
- CSV - JSON - Avro - Parquet |
Exclude attribute |
Indica se escludere gli attributi negli elementi. Il valore predefinito è false . |
XML |
Attribute prefix |
Prefisso per gli attributi per distinguere attributi ed elementi. Il valore predefinito è _ . |
XML |
Tipo di dati colonna
Sono supportati i tipi dati di colonna seguenti. Per altre informazioni sui tipi di dati individuali, vedere Tipi di dati SQL.
Tipo di dati | Descrizione |
---|---|
BIGINT |
Numeri interi con segno a 8 byte. |
BOOLEAN |
Valori booleani (true , false ). |
DATE |
e giorno, senza un fuso orario. |
DECIMAL (P,S) |
Numeri con precisione massima P e scala fissa S . |
DOUBLE |
Numeri a virgola mobile a precisione doppia a 8 byte. |
STRING |
Valori stringa di caratteri. |
TIMESTAMP |
Valori che comprendono i valori di campi anno, mese, giorno, ora, minuto e secondo, con il fuso orario locale della sessione. |
Problemi noti
- Potrebbero verificarsi problemi con caratteri speciali in tipi di dati complessi, ad esempio un oggetto JSON con una chiave contenente un backtick o due punti.
- Per alcuni file JSON potrebbe essere necessario selezionare manualmente JSON per il tipo di file. Per selezionare manualmente un tipo di file dopo aver selezionato i file, fare clic su Attributi avanzati, disattivare Rileva automaticamente il tipo di file e quindi selezionare JSON.
- I timestamp annidati e i decimali all'interno di tipi complessi potrebbero riscontrare problemi.