Dela via


Skapa eller ändra en tabell med filuppladdning

Med sidan Skapa eller ändra en tabell med filuppladdning kan du ladda upp CSV-, TSV- eller JSON-, Avro-, Parquet- eller textfiler för att skapa eller skriva över en hanterad Delta Lake-tabell.

Du kan skapa hanterade Delta-tabeller i Unity Catalog eller i Hive-metaarkivet.

Kommentar

Dessutom kan du använda användargränssnittet för att lägga till data eller KOPIERA TILL för att läsa in filer från molnlagring.

Viktigt!

Du kan använda användargränssnittet för att skapa en Delta-tabell genom att importera små CSV-, TSV-, JSON-, Avro-, Parquet- eller textfiler från den lokala datorn.

  • Sidan Skapa eller ändra en tabell med filuppladdning stöder uppladdning av upp till 10 filer åt gången.
  • Den totala storleken på uppladdade filer måste vara under 2 gigabyte.
  • Filen måste vara en CSV-, TSV-, JSON-, Avro-, Parquet- eller textfil och ha tillägget ".csv", ".tsv" (eller ".tab"), ".json", ".avro", ".parquet" eller ".txt".
  • Komprimerade filer som zip och tar filer stöds inte.

Ladda upp filen

  1. Klicka på Ny ikon Nytt > Lägg till data.
  2. Klicka på Skapa eller ändra en tabell.
  3. Klicka på filwebbläsaren eller dra och släpp filer direkt i släppzonen.

Kommentar

Importerade filer laddas upp till en säker intern plats i ditt konto, vilket är skräp som samlas in dagligen.

Förhandsgranska, konfigurera och skapa en tabell

Du kan ladda upp data till mellanlagringsområdet utan att ansluta till beräkningsresurser, men du måste välja en aktiv beräkningsresurs för att förhandsgranska och konfigurera tabellen.

Du kan förhandsgranska 50 rader med dina data när du konfigurerar alternativen för den uppladdade tabellen. Klicka på rutnäts- eller listknapparna under filnamnet för att växla presentationen av dina data.

Azure Databricks lagrar datafiler för hanterade tabeller på de platser som konfigurerats för det innehållande schemat. Du behöver rätt behörigheter för att skapa en tabell i ett schema.

Välj önskat schema där du vill skapa en tabell genom att göra följande:

  1. (Endast för Unity Catalog-aktiverade arbetsytor) Du kan välja en katalog eller den äldre hive_metastore.
  2. Välj ett schema.
  3. (Valfritt) Redigera tabellnamnet.

Kommentar

Du kan använda listrutan för att välja Skriv över befintlig tabell eller Skapa ny tabell. Åtgärder som försöker skapa nya tabeller med namnkonflikter visar ett felmeddelande.

Du kan konfigurera alternativ eller kolumner innan du skapar tabellen.

Om du vill skapa tabellen klickar du på Skapa längst ned på sidan.

Formatalternativ

Formatalternativen beror på vilket filformat du laddar upp. Vanliga formatalternativ visas i rubrikfältet, medan mindre vanliga alternativ är tillgängliga i dialogrutan Avancerade attribut .

  • För CSV är följande alternativ tillgängliga:
    • Första raden innehåller rubriken (aktiverad som standard): Det här alternativet anger om CSV/TSV-filen innehåller ett huvud.
    • Kolumnavgränsare: Avgränsarens tecken mellan kolumner. Endast ett enda tecken tillåts och omvänt snedstreck stöds inte. Detta är som standard kommatecken för CSV-filer.
    • Identifiera kolumntyper automatiskt (aktiverad som standard): Identifiera kolumntyper automatiskt från filinnehåll. Du kan redigera typer i förhandsgranskningstabellen. Om detta är inställt på false härleds alla kolumntyper som STRING.
    • Rader sträcker sig över flera rader (inaktiverade som standard): Om en kolumns värde kan sträcka sig över flera rader i filen.
    • Sammanfoga schemat mellan flera filer: Om schemat ska härledas mellan flera filer och om schemat för varje fil ska sammanfogas. Om det är inaktiverat används schemat från en fil.
  • För JSON är följande alternativ tillgängliga:
    • Identifiera kolumntyper automatiskt (aktiverad som standard): Identifiera kolumntyper automatiskt från filinnehåll. Du kan redigera typer i förhandsgranskningstabellen. Om detta är inställt på false härleds alla kolumntyper som STRING.
    • Rader sträcker sig över flera rader (aktiverade som standard): Om en kolumns värde kan sträcka sig över flera rader i filen.
    • Tillåt kommentarer (aktiverad som standard): Om kommentarer tillåts i filen.
    • Tillåt enkla citattecken (aktiverad som standard): Om enkla citattecken tillåts i filen.
    • Härled tidsstämpel (aktiverad som standard): Om du vill försöka härleda tidsstämpelsträngar som TimestampType.
  • För JSON är följande alternativ tillgängliga:
    • Identifiera kolumntyper automatiskt (aktiverad som standard): Identifiera kolumntyper automatiskt från filinnehåll. Du kan redigera typer i förhandsgranskningstabellen. Om detta är inställt på false härleds alla kolumntyper som STRING.
    • Rader sträcker sig över flera rader (inaktiverade som standard): Om en kolumns värde kan sträcka sig över flera rader i filen.
    • Tillåt kommentarer Om kommentarer tillåts i filen.
    • Tillåt enkla citattecken: Om enkla citattecken tillåts i filen.
    • Härled tidsstämpel: Om du vill försöka härleda tidsstämpelsträngar som TimestampType.

Dataförhandsgranskningen uppdateras automatiskt när du redigerar formatalternativ.

Kommentar

När du laddar upp flera filer gäller följande regler:

  • Rubrikinställningar gäller för alla filer. Kontrollera att rubrikerna är konsekvent frånvarande eller finns i alla uppladdade filer för att undvika dataförlust.
  • Uppladdade filer kombineras genom att alla data läggs till som rader i måltabellen. Anslutning eller sammanslagning av poster under filuppladdning stöds inte.

Kolumnnamn och typer

Du kan redigera kolumnnamn och typer.

  • Om du vill redigera typer klickar du på ikonen med typen .

    Kommentar

    Du kan inte redigera kapslade typer för STRUCT eller ARRAY.

  • Om du vill redigera kolumnnamnet klickar du på indatarutan överst i kolumnen.

    Kolumnnamn stöder inte kommatecken, omvänt snedstreck eller unicode-tecken (till exempel emojis).

Kolumndatatyper härleds som standard för CSV- och JSON-filer. Du kan tolka alla kolumner som STRING typ genom att inaktivera Avancerade attribut>Identifiera kolumntyper automatiskt.

Kommentar

  • Schemainferens gör bästa möjliga identifiering av kolumntyper. Om du ändrar kolumntyper kan vissa värden omvandlas till NULL om värdet inte kan omvandlas korrekt till måldatatypen. Det går inte att casta BIGINT till DATE eller TIMESTAMP kolumner. Databricks rekommenderar att du skapar en tabell först och sedan transformerar dessa kolumner med hjälp av SQL-funktioner efteråt.
  • Om du vill stödja tabellkolumnnamn med specialtecken använder sidan Skapa eller ändra en tabell med filuppladdning kolumnmappning.
  • Om du vill lägga till kommentarer i kolumner skapar du tabellen och navigerar till Katalogutforskaren där du kan lägga till kommentarer.

Datatyper som stöds

Sidan Skapa eller ändra en tabell med filuppladdning stöder följande datatyper. Mer information om enskilda datatyper finns i SQL-datatyper.

Datatyp beskrivning
BIGINT 8 byte signerade heltalsnummer.
BOOLEAN Booleska (true, false) värden.
DATE Värden som består av värden för fälten år, månad och dag, utan tidszon.
DOUBLE Flyttal med 8 byte med dubbel precision.
STRING Teckensträngsvärden.
TIMESTAMP Värden som består av värden för fälten år, månad, dag, timme, minut och sekund, med den lokala tidszonen för sessionen.
STRUCT Värden med strukturen som beskrivs av en sekvens med fält.
ARRAY Värden som består av en sekvens med element med typen
elementType.
DECIMAL(P,S) Tal med maximal precision P och fast skalning S.

Kända problem

Gjutning BIGINT till icke-gjutbara typer som DATE, till exempel datum i formatet "åååå", kan utlösa fel.