Läsa in data med en extern plats i Unity Catalog
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Den här artikeln beskriver hur du använder användargränssnittet för att lägga till data för att skapa en hanterad tabell från data i Azure Data Lake Storage Gen2 med hjälp av en extern Unity Catalog-plats. En extern plats är ett objekt som kombinerar en molnlagringssökväg med en lagringsautentiseringsuppgift som ger åtkomst till molnlagringssökvägen.
Innan du börjar
Innan du börjar måste du ha följande:
- En arbetsyta med Unity Catalog aktiverat. Mer information finns i Konfigurera och hantera Unity Catalog.
- Behörigheten
READ FILES
på den externa platsen. Mer information finns i Skapa en extern plats för att ansluta molnlagring till Azure Databricks. - Behörigheten
CREATE TABLE
för schemat där du vill skapa den hanterade tabellen, behörighetenUSE SCHEMA
för schemat och behörighetenUSE CATALOG
för den överordnade katalogen. Mer information finns i Behörigheter för Unity-katalog och skyddsbara objekt.
Filtyper
Följande filtyper stöds:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
Steg 1: Bekräfta åtkomsten till den externa platsen
Gör följande för att bekräfta åtkomsten till den externa platsen:
- I sidofältet på din Azure Databricks-arbetsyta klickar du på Katalog.
- I Katalogutforskaren klickar du på Externa data>externa platser.
Steg 2: Skapa den hanterade tabellen
Gör följande för att skapa den hanterade tabellen:
I sidofältet på arbetsytan klickar du på + Ny>Lägg till data.
I lägg till datagränssnitt klickar du på Azure Data Lake Storage.
Välj en extern plats i listrutan.
Välj de mappar och filer som du vill läsa in i Azure Databricks och klicka sedan på Förhandsgranska tabell.
Välj en katalog och ett schema i listrutorna.
(Valfritt) Redigera tabellnamnet.
(Valfritt) Om du vill ange avancerade formatalternativ efter filtyp klickar du på Avancerade attribut, inaktiverar Identifiera filtyp automatiskt och väljer sedan en filtyp.
En lista över formatalternativ finns i följande avsnitt.
(Valfritt) Om du vill redigera kolumnnamnet klickar du på indatarutan överst i kolumnen.
Kolumnnamn stöder inte kommatecken, omvänt snedstreck eller unicode-tecken (till exempel emojis).
(Valfritt) Om du vill redigera kolumntyper klickar du på ikonen med typen .
Klicka på Skapa tabell.
Formatalternativ för filtyp
Följande formatalternativ är tillgängliga, beroende på filtyp:
Formatalternativ | beskrivning | Filtyper som stöds |
---|---|---|
Column delimiter |
Avgränsarens tecken mellan kolumner. Endast ett enda tecken tillåts och omvänt snedstreck stöds inte. Standardvärdet är ett kommatecken. |
CSV |
Escape character |
Escape-tecknet som ska användas vid parsning av data. Standardvärdet är ett citattecken. |
CSV |
First row contains the header |
Det här alternativet anger om filen innehåller ett huvud. Aktiverat som standard. |
CSV |
Automatically detect file type |
Identifiera filtypen automatiskt. Standard är true . |
XML |
Automatically detect column types |
Identifiera kolumntyper automatiskt från filinnehåll. Du kan redigera typer i förhandsgranskningstabellen. Om detta är inställt på false härleds alla kolumntyper som STRING. Aktiverat som standard. |
– CSV - JSON – XML |
Rows span multiple lines |
Om en kolumns värde kan sträcka sig över flera rader i filen. Inaktiverat som standard. |
– CSV - JSON |
Merge the schema across multiple files |
Om schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. Aktiverat som standard. |
CSV |
Allow comments |
Om kommentarer tillåts i filen. Aktiverat som standard. |
JSON |
Allow single quotes |
Om enkla citattecken tillåts i filen. Aktiverat som standard. |
JSON |
Infer timestamp |
Om du vill försöka härleda tidsstämpelsträngar som TimestampType .Aktiverat som standard. |
JSON |
Rescued data column |
Om du vill spara kolumner som inte matchar schemat. Mer information finns i Vad är den räddade datakolumnen?. Aktiverat som standard. |
– CSV - JSON - Avro -Parkettgolv |
Exclude attribute |
Om du vill exkludera attribut i element. Standard är false . |
XML |
Attribute prefix |
Prefixet för attribut för att särskilja attribut och element. Standard är _ . |
XML |
Kolumndatatyper
Följande kolumndatatyper stöds. Mer information om enskilda datatyper finns i SQL-datatyper.
Datatyp | beskrivning |
---|---|
BIGINT |
8 byte signerade heltalsnummer. |
BOOLEAN |
Booleska (true , false ) värden. |
DATE |
och dag, utan tidszon. |
DECIMAL (P,S) |
Tal med maximal precision P och fast skalning S . |
DOUBLE |
Flyttal med 8 byte med dubbel precision. |
STRING |
Teckensträngsvärden. |
TIMESTAMP |
Värden som består av värden för fälten år, månad, dag, timme, minut och sekund, med den lokala tidszonen för sessionen. |
Kända problem
- Du kan få problem med specialtecken i komplexa datatyper, till exempel ett JSON-objekt med en nyckel som innehåller en backtick eller ett kolon.
- Vissa JSON-filer kan kräva att du väljer JSON manuellt för filtypen. Om du vill välja en filtyp manuellt när du har valt filer klickar du på Avancerade attribut, inaktiverar Identifiera filtyp automatiskt och väljer sedan JSON.
- Kapslade tidsstämplar och decimaler i komplexa typer kan stöta på problem.