Een update uitvoeren op een DLT-pijplijn
In dit artikel worden pijplijnupdates uitgelegd en vindt u meer informatie over het activeren van een update.
Wat is een pijplijnupdate?
Nadat u een pijplijn hebt gemaakt en klaar bent om deze uit te voeren, start u een update. Een pijplijnupdate doet het volgende:
- Hiermee start u een cluster met de juiste configuratie.
- Detecteert alle gedefinieerde tabellen en weergaven en controleert op analysefouten, zoals ongeldige kolomnamen, ontbrekende afhankelijkheden en syntaxisfouten.
- Hiermee worden tabellen en weergaven gemaakt of bijgewerkt met de meest recente gegevens die beschikbaar zijn.
Met behulp van een updatevalideren, kunt u controleren op problemen in de broncode van een pijplijn zonder te wachten tot tabellen zijn gemaakt of bijgewerkt. Deze functie is handig bij het ontwikkelen of testen van pijplijnen, omdat u hiermee snel fouten in uw pijplijn kunt vinden en oplossen, zoals onjuiste tabel- of kolomnamen.
Hoe worden pijplijnupdates geactiveerd?
Gebruik een van de volgende opties om pijplijnupdates te starten:
Trigger bijwerken | Bijzonderheden |
---|---|
Handmatig | U kunt pijplijnupdates handmatig activeren vanuit de gebruikersinterface van de pijplijn, de lijst met pijplijnen of een notebook dat is gekoppeld aan een pijplijn. Zie Handmatig een pijplijnupdate activeren en DLT-pijplijnen ontwikkelen en fouten opsporen in notebooks. |
Gepland | U kunt updates voor pijplijnen plannen met behulp van taken. Zie de DLT-pijplijntaak voor taken. |
Programmatische | U kunt programmatisch updates activeren met behulp van hulpprogramma's, API's en CLIs van derden. Zie Een DLT-pijplijn uitvoeren in een werkstroom en Pipeline-API. |
handmatig een pijplijnupdate activeren
Gebruik een van de volgende opties om handmatig een pijplijnupdate te activeren:
- Klik op het
op de pagina met pijplijndetails.
- Klik in de lijst met pijplijnen op
in de kolom Acties.
Notitie
Het standaardgedrag voor handmatig geactiveerde pijplijnupdates is het vernieuwen van alle gegevenssets die in de pijplijn zijn gedefinieerd.
semantiek voor pijplijnvernieuwing
De volgende tabel beschrijft de gedragingen van materialized views en streamingtabellen voor standaardvernieuwing en volledige vernieuwing.
Type bijwerken | Gerealiseerde weergave-semantiek | Semantiek van streamingtabellen |
---|---|---|
Vernieuwen (standaard) | Hiermee worden de resultaten bijgewerkt om de huidige resultaten voor de definiërende query weer te geven. | Nieuwe records worden verwerkt volgens de logica die is gedefinieerd in streamingtabellen en stromen. |
Volledig vernieuwen | Hiermee worden de resultaten bijgewerkt om de huidige resultaten voor de definiërende query weer te geven. | Wist gegevens uit de streamingtabellen, wist statusinformatie (controlepunten) uit de datastromen en verwerkt alle records uit de gegevensbron opnieuw. |
Standaard worden alle gematerialiseerde weergaven en streamingtabellen in een pijplijn vernieuwd met elke update. U kunt eventueel tabellen weglaten uit updates met behulp van de volgende functies:
- Tabellen selecteren omte vernieuwen: gebruik deze interface om gerealiseerde weergaven en streamingtabellen toe te voegen of te verwijderen voordat een update wordt uitgevoerd. Zie Een pijplijnupdate starten voor geselecteerde tabellen.
- Vernieuw gefaalde tabellen: Start een update voor gefaalde gerealiseerde weergaven en streamingtabellen, inclusief downstream afhankelijkheden. Zie Een pijplijnupdate starten voor mislukte tabellen.
Beide functies ondersteunen standaard vernieuwingssemantiek of volledige vernieuwing. U kunt desgewenst het dialoogvenster Tabellen selecteren voor vernieuwen gebruiken om extra tabellen uit te sluiten bij het uitvoeren van een vernieuwing voor mislukte tabellen.
Moet ik een volledige vernieuwing gebruiken?
Databricks raadt aan om volledige vernieuwingen alleen uit te voeren wanneer dat nodig is. Een volledige vernieuwing verwerkt altijd alle records uit de opgegeven gegevensbronnen via de logica die de gegevensset definieert. De tijd en resources voor het voltooien van een volledige vernieuwing worden gecorreleerd aan de grootte van de brongegevens.
Gematerialiseerde weergaven geven dezelfde resultaten terug, of het nu standaard of volledige vernieuwing wordt gebruikt. Als u een volledige vernieuwing gebruikt met streamingtabellen, worden alle statusverwerkings- en controlepuntgegevens opnieuw ingesteld en kunnen records verloren gaan als invoergegevens niet meer beschikbaar zijn.
Databricks raadt alleen volledige vernieuwing aan wanneer de invoergegevensbronnen de gegevens bevatten die nodig zijn om de gewenste status van de tabel of weergave opnieuw te maken. Houd rekening met de volgende scenario's waarbij invoerbrongegevens niet meer beschikbaar zijn en het resultaat van het uitvoeren van een volledige vernieuwing:
Gegevensbron | Reden dat invoergegevens afwezig zijn | Resultaat van volledige vernieuwing |
---|---|---|
Kafka | Drempelwaarde voor korte retentie | Records die niet meer aanwezig zijn in de Kafka-bron, worden verwijderd uit de doeltabel. |
Bestanden in objectopslag | Levenscyclusbeleid | Gegevensbestanden die niet meer aanwezig zijn in de bronmap, worden verwijderd uit de doeltabel. |
Records in een tabel | Verwijderd voor naleving | Alleen de records die in de brontabel staan, worden verwerkt. |
Als u wilt voorkomen dat volledige vernieuwingen worden uitgevoerd in een tabel of weergave, stelt u de tabeleigenschap pipelines.reset.allowed
in op false
. Zie DLT-tabeleigenschappen. U kunt ook een toevoegstroom gebruiken om gegevens toe te voegen aan een bestaande streamingtabel zonder dat u een volledige vernieuwing nodig hebt.
Een pijplijnupdate voor geselecteerde tabellen starten
U kunt desgewenst gegevens opnieuw verwerken voor alleen geselecteerde tabellen in uw pijplijn. Tijdens de ontwikkeling wijzigt u bijvoorbeeld slechts één tabel en wilt u de testtijd verminderen of mislukt een pijplijnupdate en wilt u alleen de mislukte tabellenvernieuwen.
Notitie
U kunt selectief vernieuwen gebruiken met alleen geactiveerde pijplijnen.
Als u een update wilt starten waarmee alleen geselecteerde tabellen worden vernieuwd, gaat u naar de pijplijndetailpagina:
Klik op Tabellen selecteren omte vernieuwen. Het dialoogvenster Tabellen selecteren voor vernieuwen wordt weergegeven.
Als u de knop Tabellen selecteren voor het vernieuwen van niet ziet, controleert u of op de pagina pijplijndetails de meest recente update wordt weergegeven en of de update is voltooid. Als een DAG niet wordt weergegeven voor de meest recente update, bijvoorbeeld omdat de update is mislukt, wordt de knop Tabellen selecteren voor vernieuwen niet weergegeven.
Als u de tabellen wilt selecteren die u wilt vernieuwen, klikt u op elke tabel. De geselecteerde tabellen zijn gemarkeerd en gelabeld. Als u een tabel uit de update wilt verwijderen, klikt u nogmaals op de tabel.
Klik op Vernieuw selectie.
Notitie
Met de knop Selectie vernieuwen wordt het aantal geselecteerde tabellen tussen haakjes weergegeven.
Als u de gegevens die al zijn opgenomen voor de geselecteerde tabellen opnieuw wilt verwerken, klikt u op naast de knop Selectie vernieuwen en klikt u op Selectie volledig vernieuwen.
een pijplijnupdate starten voor mislukte tabellen
Als een pijplijnupdate mislukt vanwege fouten in een of meer tabellen in de pijplijngrafiek, kunt u een update starten van alleen mislukte tabellen en eventuele downstreamafhankelijkheden.
Notitie
Uitgesloten tabellen worden niet vernieuwd, zelfs niet als ze afhankelijk zijn van een mislukte tabel.
Als u mislukte tabellen wilt bijwerken, klikt u op de pagina Pijplijndetails op Mislukte tabellen vernieuwen.
Alleen geselecteerde mislukte tabellen bijwerken:
Klik op de
naast de knop Mislukte tabellen vernieuwen en klik op Selecteer tabellen om te vernieuwen. Het dialoogvenster Tabellen selecteren voor bijwerken wordt weergegeven.
Als u de tabellen wilt selecteren die u wilt vernieuwen, klikt u op elke tabel. De geselecteerde tabellen zijn gemarkeerd en gelabeld. Als u een tabel uit de update wilt verwijderen, klikt u nogmaals op de tabel.
Klik op Vernieuwen van de selectie.
Notitie
Met de knop Selectie vernieuwen wordt het aantal geselecteerde tabellen tussen haakjes weergegeven.
Als u de gegevens die al zijn opgenomen voor de geselecteerde tabellen opnieuw wilt verwerken, klikt u op naast de knop Selectie vernieuwen en klikt u op Selectie volledig vernieuwen.
Controleer een pijplijn op fouten zonder te wachten tot tabellen zijn bijgewerkt
Belangrijk
De DLT Validate
-updatefunctie bevindt zich in Openbare Preview.
Als u wilt controleren of de broncode van een pijplijn geldig is zonder een volledige update uit te voeren, gebruikt u Valideer. Met een Validate
-update worden de definities van gegevenssets en stromen in de pijplijn opgelost, maar worden er geen gegevenssets gerealiseerd of gepubliceerd. Fouten die zijn gevonden tijdens de validatie, zoals onjuiste tabel- of kolomnamen, worden gerapporteerd in de gebruikersinterface.
Als u een Validate
-update wilt uitvoeren, klik dan op op de pagina met pijplijndetails naast Start en klik op Valideren.
Nadat de Validate
-update is voltooid, worden in het gebeurtenislogboek alleen gebeurtenissen weergegeven die betrekking hebben op de Validate
update en worden er geen metrische gegevens weergegeven in de DAG. Als er fouten worden gevonden, zijn details beschikbaar in het gebeurtenislogboek.
U kunt alleen resultaten zien voor de meest recente update van Validate
. Als de Validate
update de laatst uitgevoerde update was, kunt u de resultaten zien door deze te selecteren in de updategeschiedenis. Als er na de Validate
update een andere update wordt uitgevoerd, zijn de resultaten niet meer beschikbaar in de gebruikersinterface.
ontwikkelings- en productiemodi
U kunt de uitvoering van pijplijnen optimaliseren door te schakelen tussen ontwikkelings- en productiemodi. Gebruik de knoppen in de gebruikersinterface voor pijplijnen om tussen deze twee modi te schakelen. Pijplijnen worden standaard uitgevoerd in de ontwikkelingsmodus.
Wanneer u uw pijplijn uitvoert in de ontwikkelingsmodus, doet het DLT-systeem het volgende:
- Hergebruikt een cluster om de overhead van herstarten te voorkomen. Clusters worden standaard twee uur uitgevoerd wanneer de ontwikkelingsmodus is ingeschakeld. U kunt dit wijzigen met de instelling
pipelines.clusterShutdown.delay
in de Rekenproces configureren voor een DLT-pijplijn. - Schakelt herhalingen voor pipelines uit, zodat u direct fouten kunt opsporen en oplossen.
In de productiemodus doet het DLT-systeem het volgende:
- Start het cluster opnieuw op voor specifieke herstelbare fouten, waaronder geheugenlekken en verouderde referenties.
- Voer de uitvoering opnieuw uit in het geval van specifieke fouten, zoals een fout bij het starten van een cluster.
Notitie
Schakelen tussen ontwikkelings- en productiemodi bepaalt alleen het gedrag van cluster- en pijplijnuitvoering. Opslaglocaties en doelschema's in de catalogus voor publicatietabellen moeten worden geconfigureerd als onderdeel van pijplijninstellingen en worden niet beïnvloed bij het schakelen tussen modi.