Een tabel maken of wijzigen met behulp van het uploaden van bestanden

Artikel
08/14/2024

Met de pagina Een tabel maken of wijzigen met bestandsuploadpagina kunt u CSV-, TSV- of JSON-, Avro-, Parquet- of tekstbestanden uploaden om een beheerde Delta Lake-tabel te maken of overschrijven.

U kunt beheerde Delta-tabellen maken in Unity Catalog of in de Hive-metastore.

Notitie

Daarnaast kunt u de gebruikersinterface voor gegevens toevoegen of COPY INTO gebruiken om bestanden uit de cloudopslag te laden.

Belangrijk

U moet toegang hebben tot een actieve rekenresource en machtigingen voor het maken van tabellen in een doelschema.
Werkruimtebeheerders kunnen de pagina Een tabel maken of wijzigen uitschakelen met behulp van de pagina voor het uploaden van bestanden.

U kunt de gebruikersinterface gebruiken om een Delta-tabel te maken door kleine CSV-, TSV-, JSON-, Avro-, Parquet- of tekstbestanden te importeren vanaf uw lokale computer.

De pagina Een tabel maken of wijzigen met behulp van de pagina voor het uploaden van bestanden ondersteunt het uploaden van maximaal 10 bestanden tegelijk.
De totale grootte van geüploade bestanden moet kleiner zijn dan 2 gigabyte.
Het bestand moet een CSV-, TSV-, JSON-, Avro-, Parquet- of tekstbestand zijn en de extensie '.csv', '.tsv' (of '.tab'), '.json', '.avro', '.parquet' of '.txt'.
Gecomprimeerde bestanden, zoals zip en tar bestanden, worden niet ondersteund.

Het bestand uploaden

Klik op Nieuwe > gegevens toevoegen.
Klik op Een tabel maken of wijzigen.
Klik op de knop Bestandsbrowser of sleep bestanden rechtstreeks in de neerloopzone.

Notitie

Geïmporteerde bestanden worden geüpload naar een veilige interne locatie binnen uw account die dagelijks wordt verzameld.

Een voorbeeld van een tabel bekijken, configureren en maken

U kunt gegevens uploaden naar het faseringsgebied zonder verbinding te maken met rekenresources, maar u moet een actieve rekenresource selecteren om een voorbeeld van de tabel te bekijken en te configureren.

U kunt 50 rijen van uw gegevens bekijken wanneer u de opties voor de geüploade tabel configureert. Klik op de raster- of lijstknoppen onder de bestandsnaam om de presentatie van uw gegevens te wijzigen.

Azure Databricks slaat gegevensbestanden op voor beheerde tabellen op de locaties die zijn geconfigureerd voor het bijbehorende schema. U hebt de juiste machtigingen nodig om een tabel in een schema te maken.

Selecteer het gewenste schema waarin u een tabel wilt maken door het volgende te doen:

(Alleen voor werkruimten met Unity-catalogus) U kunt een catalogus of de verouderde hive_metastorecatalogus selecteren.
Selecteer een schema.
(Optioneel) Bewerk de tabelnaam.

Notitie

U kunt de vervolgkeuzelijst gebruiken om bestaande tabel te overschrijven of nieuwe tabel maken te selecteren. Bewerkingen die nieuwe tabellen met naamconflicten proberen te maken, geven een foutbericht weer.

U kunt opties of kolommen configureren voordat u de tabel maakt.

Klik onder aan de pagina op Maken om de tabel te maken.

Opmaakopties

De indelingsopties zijn afhankelijk van de bestandsindeling die u uploadt. Algemene indelingsopties worden weergegeven in de koptekstbalk, terwijl er minder veelgebruikte opties beschikbaar zijn in het dialoogvenster Geavanceerde kenmerken .

Voor CSV zijn de volgende opties beschikbaar:
- Eerste rij bevat de koptekst (standaard ingeschakeld): Met deze optie geeft u op of het CSV-/TSV-bestand een koptekst bevat.
- Kolomscheidingsteken: het scheidingsteken tussen kolommen. Er is slechts één teken toegestaan en backslash wordt niet ondersteund. Dit is standaard een komma voor CSV-bestanden.
- Kolomtypen automatisch detecteren (standaard ingeschakeld): Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op onwaar, worden alle kolomtypen afgeleid als STRING.
- Rijen omvatten meerdere regels (standaard uitgeschakeld): of de waarde van een kolom meerdere regels in het bestand kan omvatten.
- Het schema samenvoegen over meerdere bestanden: of u het schema wilt afleiden over meerdere bestanden en het schema van elk bestand wilt samenvoegen. Als dit is uitgeschakeld, wordt het schema uit één bestand gebruikt.
Voor JSON zijn de volgende opties beschikbaar:
- Kolomtypen automatisch detecteren (standaard ingeschakeld): Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op onwaar, worden alle kolomtypen afgeleid als STRING.
- Rijen omvatten meerdere regels (standaard ingeschakeld): of de waarde van een kolom meerdere regels in het bestand kan omvatten.
- Opmerkingen toestaan (standaard ingeschakeld): Of opmerkingen in het bestand zijn toegestaan.
- Enkele aanhalingstekens toestaan (standaard ingeschakeld): Of enkele aanhalingstekens zijn toegestaan in het bestand.
- Tijdstempel afleiden (standaard ingeschakeld): Of u tijdstempeltekenreeksen wilt afleiden als TimestampType.
Voor JSON zijn de volgende opties beschikbaar:
- Kolomtypen automatisch detecteren (standaard ingeschakeld): Automatisch kolomtypen van bestandsinhoud detecteren. U kunt typen bewerken in de voorbeeldtabel. Als dit is ingesteld op onwaar, worden alle kolomtypen afgeleid als STRING.
- Rijen omvatten meerdere regels (standaard uitgeschakeld): of de waarde van een kolom meerdere regels in het bestand kan omvatten.
- Opmerkingen toestaan Of opmerkingen zijn toegestaan in het bestand.
- Enkele aanhalingstekens toestaan: of enkele aanhalingstekens zijn toegestaan in het bestand.
- Tijdstempel afleiden: geeft aan of u tijdstempeltekenreeksen wilt afleiden als TimestampType.

De voorbeeldweergave van gegevens wordt automatisch bijgewerkt wanneer u opmaakopties bewerkt.

Notitie

Wanneer u meerdere bestanden uploadt, zijn de volgende regels van toepassing:

Koptekstinstellingen zijn van toepassing op alle bestanden. Zorg ervoor dat headers consistent afwezig of aanwezig zijn in alle geüploade bestanden om gegevensverlies te voorkomen.
Geüploade bestanden worden gecombineerd door alle gegevens toe te voegen als rijen in de doeltabel. Het toevoegen of samenvoegen van records tijdens het uploaden van bestanden wordt niet ondersteund.

Kolomnamen en -typen

U kunt kolomnamen en -typen bewerken.

Als u typen wilt bewerken, klikt u op het pictogram met het type.

Notitie

U kunt geneste typen niet bewerken voor STRUCT of ARRAY.
Als u de kolomnaam wilt bewerken, klikt u op het invoervak boven aan de kolom.

Kolomnamen ondersteunen geen komma's, backslashes of Unicode-tekens (zoals emoji's).

Kolomgegevenstypen worden standaard afgeleid voor CSV- en JSON-bestanden. U kunt alle kolommen STRING als type interpreteren door Geavanceerde kenmerken>automatisch kolomtypen te detecteren.

Notitie

Schemadeductie doet een best effort detectie van kolomtypen. Het wijzigen van kolomtypen kan ertoe leiden dat bepaalde waarden worden gecast NULL als de waarde niet correct kan worden omgezet in het doelgegevenstype. Casten BIGINT naar DATE of TIMESTAMP kolommen wordt niet ondersteund. Databricks raadt u aan eerst een tabel te maken en deze kolommen vervolgens te transformeren met behulp van SQL-functies.
Voor de ondersteuning van tabelkolomnamen met speciale tekens maakt of wijzigt u een tabel met behulp van de pagina Voor het uploaden van bestanden, wordt gebruikgemaakt van kolomtoewijzing.
Als u opmerkingen wilt toevoegen aan kolommen, maakt u de tabel en gaat u naar Catalog Explorer , waar u opmerkingen kunt toevoegen.

Ondersteunde gegevenstypen

De pagina Een tabel maken of wijzigen met behulp van de pagina voor het uploaden van bestanden ondersteunt de volgende gegevenstypen. Zie SQL-gegevenstypen voor meer informatie over afzonderlijke gegevenstypen.

Gegevenssoort	Beschrijving
`BIGINT`	8-byte ondertekende gehele getallen.
`BOOLEAN`	Booleaanse waarden (`true`, `false`waarden).
`DATE`	Waarden die bestaan uit waarden van velden jaar, maand en dag, zonder een tijdzone.
`DOUBLE`	8-bytes dubbele precisie drijvendekommanummers.
`STRING`	Tekenreekswaarden.
`TIMESTAMP`	Waarden die bestaan uit waarden van velden jaar, maand, dag, uur, minuut en seconde, met de lokale tijdzone van de sessie.
`STRUCT`	Waarden met de structuur die wordt beschreven door een reeks velden.
`ARRAY`	Waarden die bestaan uit een reeks elementen met het type `elementType`.
`DECIMAL(P,S)`	Getallen met maximale precisie `P` en vaste schaal `S`.

Bekende problemen

Casten BIGINT naar niet-castable typen, zoals DATEdatums in de notatie 'yyyy', kunnen fouten veroorzaken.

Delen via

Een tabel maken of wijzigen met behulp van het uploaden van bestanden

Het bestand uploaden

Een voorbeeld van een tabel bekijken, configureren en maken

Opmaakopties

Kolomnamen en -typen

Ondersteunde gegevenstypen

Bekende problemen

Feedback

Aanvullende resources