Gegevens opnemen uit de opslag van cloudobjecten

Artikel
11/07/2024

In dit artikel vindt u een overzicht van de manieren waarop u incrementele opname kunt configureren vanuit de opslag van cloudobjecten.

Gegevensgebruikersinterface toevoegen

Voor meer informatie over het gebruik van de gebruikersinterface voor het toevoegen van gegevens om een beheerde tabel te maken op basis van gegevens in de opslag van cloudobjecten, raadpleegt u Gegevens laden met behulp van een externe locatie van Unity Catalog.

Notebook of SQL-editor

In deze sectie worden opties beschreven voor het configureren van incrementele opname vanuit cloudobjectopslag met behulp van een notebook of de Databricks SQL-editor.

Automatisch laden

Automatisch laden verwerkt stapsgewijs en efficiënt nieuwe gegevensbestanden wanneer ze in de cloudopslag aankomen zonder extra installatie. Auto Loader biedt een Structured Streaming-bron met de naam cloudFiles. Gezien een pad naar de invoermap in de opslag van cloudbestanden, verwerkt de cloudFiles bron automatisch nieuwe bestanden wanneer ze binnenkomen, met de optie om ook bestaande bestanden in die map te verwerken.

COPY INTO

Met COPY INTOkunnen SQL-gebruikers idempotent en incrementeel gegevens uit cloudobjectopslag opnemen in Delta-tabellen. U kunt databricks SQL, notebooks en Databricks-taken gebruiken COPY INTO .

Wanneer gebruikt u COPY INTO en wanneer Auto Loader

Hier volgen enkele aandachtspunten bij het kiezen tussen autolaadprogramma's en COPY INTO:

Als u bestanden gaat opnemen in de volgorde van duizenden in de loop van de tijd, kunt u gebruiken COPY INTO. Als u bestanden verwacht in de volgorde van miljoenen of meer in de loop van de tijd, gebruikt u Auto Loader. Auto Loader vereist minder totale bewerkingen om bestanden te detecteren in vergelijking met COPY INTO en kan de verwerking splitsen in meerdere batches, wat betekent dat Auto Loader goedkoper en efficiënter op schaal is.
Als uw gegevensschema regelmatig zal evolueren, biedt Auto Loader betere primitieve gegevenstypen rond schemadeductie en evolutie. Zie Schemadeductie en evolutie configureren in AutoLoader voor meer informatie.
Het laden van een subset van opnieuw geüploade bestanden kan iets eenvoudiger zijn om mee COPY INTOte beheren. Met Automatisch laden is het moeilijker om een selecte subset van bestanden opnieuw te verwerken. U kunt echter de COPY INTO subset van bestanden opnieuw laden terwijl een AutoLoader-stroom tegelijkertijd wordt uitgevoerd.
Voor een nog schaalbarere en robuustere ervaring voor bestandsopname stelt Auto Loader SQL-gebruikers in staat gebruik te maken van streamingtabellen. Zie Gegevens laden met behulp van streamingtabellen in Databricks SQL.

Bekijk de volgende YouTube-video (2 minuten) voor een kort overzicht en demonstratie van Auto Loader en COPY INTObekijk de volgende YouTube-video.

ETL automatiseren met Delta Live Tables en Auto Loader

U kunt de implementatie van schaalbare, incrementele opname-infrastructuur vereenvoudigen met AutoLoader en Delta Live Tables. Delta Live Tables maakt geen gebruik van de standaard interactieve uitvoering in notebooks, maar benadrukt de implementatie van infrastructuur die gereed is voor productie.

Hulpprogramma's voor opname van derden

Databricks valideert integraties van technologiepartners waarmee u gegevens uit verschillende bronnen kunt opnemen, waaronder opslag van cloudobjecten. Deze integraties maken schaalbare gegevensopname van weinig code mogelijk vanuit verschillende bronnen in Azure Databricks. Zie Technologiepartners. Sommige technologiepartners worden aanbevolen in Wat is Databricks Partner Connect?, die een gebruikersinterface biedt waarmee u eenvoudiger hulpprogramma's van derden kunt verbinden met uw Lakehouse-gegevens.

Delen via