Een tabel maken of wijzigen met behulp van het uploaden van bestanden
Met de pagina Een tabel maken of wijzigen met bestandsuploadpagina kunt u CSV-, TSV- of JSON-, Avro-, Parquet- of tekstbestanden uploaden om een beheerde Delta Lake-tabel te maken of overschrijven.
U kunt beheerde Delta-tabellen maken in Unity Catalog of in de Hive-metastore.
Notitie
Daarnaast kunt u de gebruikersinterface voor het toevoegen van gegevens of COPY INTO gebruiken om bestanden uit de cloudopslag te laden.
Belangrijk
- U moet toegang hebben tot een actieve rekenresource en machtigingen voor het maken van tabellen in een doelschema.
- Werkruimtebeheerders kunnen de pagina Een tabel maken of wijzigen uitschakelen met behulp van de pagina voor het uploaden van bestanden.
U kunt de gebruikersinterface gebruiken om een Delta-tabel te maken door kleine CSV-, TSV-, JSON-, Avro-, Parquet- of tekstbestanden te importeren vanaf uw lokale computer.
- De pagina Een tabel maken of wijzigen met behulp van de pagina voor het uploaden van bestanden ondersteunt het uploaden van maximaal 10 bestanden tegelijk.
- De totale grootte van geüploade bestanden moet kleiner zijn dan 2 gigabyte.
- Het bestand moet een CSV-, TSV-, JSON-, Avro-, Parquet- of tekstbestand zijn en de extensie '.csv', '.tsv' (of '.tab'), '.json', '.avro', '.parquet' of '.txt'.
- Gecomprimeerde bestanden, zoals
zip
entar
bestanden, worden niet ondersteund.
Het bestand uploaden
- Klik op Nieuwe > gegevens toevoegen.
- Klik op Een tabel maken of wijzigen.
- Klik op de knop Bestandsbrowser of sleep bestanden rechtstreeks in de neerloopzone.
Notitie
Geïmporteerde bestanden worden geüpload naar een veilige interne locatie binnen uw account die dagelijks wordt verzameld.
Een voorbeeld van een tabel bekijken, configureren en maken
U kunt gegevens uploaden naar het faseringsgebied zonder verbinding te maken met rekenresources, maar u moet een actieve rekenresource selecteren om een voorbeeld van de tabel te bekijken en te configureren.
U kunt 50 rijen van uw gegevens bekijken wanneer u de opties voor de geüploade tabel configureert. Klik op de raster- of lijstknoppen onder de bestandsnaam om de presentatie van uw gegevens te wijzigen.
Azure Databricks slaat gegevensbestanden op voor beheerde tabellen op de locaties die zijn geconfigureerd voor het bijbehorende schema. U hebt de juiste machtigingen nodig om een tabel in een schema te maken.
Selecteer het gewenste schema waarin u een tabel wilt maken door het volgende te doen:
- (Alleen voor werkruimten met Unity-catalogus) U kunt een catalogus of de verouderde
hive_metastore
catalogus selecteren. - Selecteer een schema.
- (Optioneel) Bewerk de tabelnaam.
Notitie
U kunt de vervolgkeuzelijst gebruiken om bestaande tabel te overschrijven of nieuwe tabel maken te selecteren. Bewerkingen die nieuwe tabellen met naamconflicten proberen te maken, geven een foutbericht weer.
U kunt opties of kolommen configureren voordat u de tabel maakt.
Klik onder aan de pagina op Maken om de tabel te maken.
Opmaakopties
De indelingsopties zijn afhankelijk van de bestandsindeling die u uploadt. Algemene indelingsopties worden weergegeven in de koptekstbalk, terwijl er minder veelgebruikte opties beschikbaar zijn in het dialoogvenster Geavanceerde kenmerken .
- Voor CSV zijn de volgende opties beschikbaar:
- Eerste rij bevat de koptekst (standaard ingeschakeld): Met deze optie geeft u op of het CSV-/TSV-bestand een koptekst bevat.
- Kolomscheidingsteken: het scheidingsteken tussen kolommen. Er is slechts één teken toegestaan en backslash wordt niet ondersteund. Dit is standaard een komma voor CSV-bestanden.
- Kolomtypen automatisch detecteren (standaard ingeschakeld): Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op onwaar, worden alle kolomtypen afgeleid als
STRING
. - Rijen omvatten meerdere regels (standaard uitgeschakeld): of de waarde van een kolom meerdere regels in het bestand kan omvatten.
- Het schema samenvoegen over meerdere bestanden: of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Als dit is uitgeschakeld, wordt het schema uit één bestand gebruikt.
- Voor JSON zijn de volgende opties beschikbaar:
- Kolomtypen automatisch detecteren (standaard ingeschakeld): Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op onwaar, worden alle kolomtypen afgeleid als
STRING
. - Rijen omvatten meerdere regels (standaard ingeschakeld): of de waarde van een kolom meerdere regels in het bestand kan omvatten.
- Opmerkingen toestaan (standaard ingeschakeld): Of opmerkingen in het bestand zijn toegestaan.
- Enkele aanhalingstekens toestaan (standaard ingeschakeld): Of enkele aanhalingstekens zijn toegestaan in het bestand.
- Tijdstempel afleiden (standaard ingeschakeld): Of u tijdstempeltekenreeksen wilt afleiden als
TimestampType
.
- Kolomtypen automatisch detecteren (standaard ingeschakeld): Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op onwaar, worden alle kolomtypen afgeleid als
- Voor JSON zijn de volgende opties beschikbaar:
- Kolomtypen automatisch detecteren (standaard ingeschakeld): Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op onwaar, worden alle kolomtypen afgeleid als
STRING
. - Rijen omvatten meerdere regels (standaard uitgeschakeld): of de waarde van een kolom meerdere regels in het bestand kan omvatten.
- Opmerkingen toestaan Of opmerkingen zijn toegestaan in het bestand.
- Enkele aanhalingstekens toestaan: of enkele aanhalingstekens zijn toegestaan in het bestand.
- Tijdstempel afleiden: geeft aan of u tijdstempeltekenreeksen wilt afleiden als
TimestampType
.
- Kolomtypen automatisch detecteren (standaard ingeschakeld): Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op onwaar, worden alle kolomtypen afgeleid als
De voorbeeldweergave van gegevens wordt automatisch bijgewerkt wanneer u opmaakopties bewerkt.
Notitie
Wanneer u meerdere bestanden uploadt, zijn de volgende regels van toepassing:
- Koptekstinstellingen zijn van toepassing op alle bestanden. Zorg ervoor dat headers consistent afwezig of aanwezig zijn in alle geüploade bestanden om gegevensverlies te voorkomen.
- Geüploade bestanden worden gecombineerd door alle gegevens toe te voegen als rijen in de doeltabel. Het toevoegen of samenvoegen van records tijdens het uploaden van bestanden wordt niet ondersteund.
Kolomnamen en -typen
U kunt kolomnamen en -typen bewerken.
Als u typen wilt bewerken, klikt u op het pictogram met het type.
Notitie
U kunt geneste typen niet bewerken voor
STRUCT
ofARRAY
.Als u de kolomnaam wilt bewerken, klikt u op het invoervak boven aan de kolom.
Kolomnamen ondersteunen geen komma's, backslashes of Unicode-tekens (zoals emoji's).
Kolomgegevenstypen worden standaard afgeleid voor CSV- en JSON-bestanden. U kunt alle kolommen STRING
als type interpreteren door Geavanceerde kenmerken>automatisch kolomtypen te detecteren.
Notitie
- Schemadeductie doet een best effort detectie van kolomtypen. Het wijzigen van kolomtypen kan ertoe leiden dat bepaalde waarden worden gecast
NULL
als de waarde niet correct kan worden omgezet in het doelgegevenstype. CastenBIGINT
naarDATE
ofTIMESTAMP
kolommen wordt niet ondersteund. Databricks raadt u aan eerst een tabel te maken en deze kolommen vervolgens te transformeren met behulp van SQL-functies. - Voor de ondersteuning van tabelkolomnamen met speciale tekens maakt of wijzigt u een tabel met behulp van de pagina Voor het uploaden van bestanden, wordt gebruikgemaakt van kolomtoewijzing.
- Als u opmerkingen wilt toevoegen aan kolommen, maakt u de tabel en gaat u naar Catalog Explorer , waar u opmerkingen kunt toevoegen.
Ondersteunde gegevenstypen
De pagina Een tabel maken of wijzigen met behulp van de pagina voor het uploaden van bestanden ondersteunt de volgende gegevenstypen. Zie SQL-gegevenstypen voor meer informatie over afzonderlijke gegevenstypen.
Gegevenssoort | Beschrijving |
---|---|
BIGINT |
8-byte ondertekende gehele getallen. |
BOOLEAN |
Booleaanse waarden (true , false waarden). |
DATE |
Waarden die bestaan uit waarden van velden jaar, maand en dag, zonder een tijdzone. |
DOUBLE |
8-bytes dubbele precisie drijvendekommanummers. |
STRING |
Tekenreekswaarden. |
TIMESTAMP |
Waarden die bestaan uit waarden van velden jaar, maand, dag, uur, minuut en seconde, met de lokale tijdzone van de sessie. |
STRUCT |
Waarden met de structuur die wordt beschreven door een reeks velden. |
ARRAY |
Waarden die bestaan uit een reeks elementen met het typeelementType . |
DECIMAL(P,S) |
Getallen met maximale precisie P en vaste schaal S . |
Bekende problemen
Casten BIGINT
naar niet-castable typen, zoals DATE
datums in de notatie 'yyyy', kunnen fouten veroorzaken.