Naslaginformatie over eigenschappen van Delta Live Tables
In dit artikel vindt u een overzicht van de JSON-instellingsspecificatie en tabeleigenschappen van Delta Live Tables in Azure Databricks. Zie de volgende artikelen voor meer informatie over het gebruik van deze verschillende eigenschappen en configuraties:
Delta Live Tables pijplijnconfiguraties
Velden |
---|
id Type: string Een wereldwijd unieke id voor deze pijplijn. De id wordt toegewezen door het systeem en kan niet worden gewijzigd. |
name Type: string Een gebruiksvriendelijke naam voor deze pijplijn. De naam kan worden gebruikt om pijplijntaken in de gebruikersinterface te identificeren. |
configuration Type: object Een optionele lijst met instellingen die moeten worden toegevoegd aan de Spark-configuratie van het cluster waarop de pijplijn wordt uitgevoerd. Deze instellingen worden gelezen door de Delta Live Tables-runtime en zijn beschikbaar voor pijplijnquery's via de Spark-configuratie. Elementen moeten worden opgemaakt als key:value paren. |
libraries Type: array of objects Een matrix van notebooks met de pijplijncode en vereiste artefacten. |
clusters Type: array of objects Een matrix met specificaties voor de clusters om de pijplijn uit te voeren. Als dit niet is opgegeven, selecteren pijplijnen automatisch een standaardclusterconfiguratie voor de pijplijn. |
development Type: boolean Een vlag die aangeeft of de pijplijn moet worden uitgevoerd in development of production modus.De standaardwaarde is true . |
notifications Type: array of objects Een optionele reeks specificaties voor e-mailmeldingen wanneer een pijplijnupdate is voltooid, mislukt met een herhaalbare fout, mislukt met een niet-herhaalbare fout of een proces mislukt. |
continuous Type: boolean Een vlag die aangeeft of de pijplijn continu moet worden uitgevoerd. De standaardwaarde is false . |
catalog Type: string De naam van de standaardcatalogus voor de pijplijn, waar alle gegevenssets en metagegevens voor de pijplijn worden gepubliceerd. Als u deze waarde instelt, wordt Unity Catalog ingeschakeld voor de pijplijn. Als het niet is ingesteld, publiceert de pijplijn naar de verouderde Hive-metastore door de locatie te gebruiken die is opgegeven in storage .In de verouderde publicatiemodus geeft u de catalogus op die het doelschema bevat waarin alle gegevenssets uit de huidige pijplijn worden gepubliceerd. Zie LIVE-schema (verouderd). |
schema Type: string De naam van het standaardschema voor de pijplijn, waarbij alle gegevenssets en metagegevens voor de pijplijn standaard worden gepubliceerd. Zie De doelcatalogus en het schema instellen. |
target (verouderd)Type: string De naam van het doelschema waarin alle gegevenssets die in de huidige pijplijn zijn gedefinieerd, worden gepubliceerd. Als u target instelt in plaats van schema configureert u de pijplijn zodanig dat de verouderde publicatiemodus wordt gebruikt. Zie LIVE-schema (verouderd). |
storage (verouderd)Type: string Een locatie in DBFS of cloudopslag waar uitvoergegevens en metagegevens die vereist zijn voor pijplijnuitvoering, worden opgeslagen. Tabellen en metagegevens worden opgeslagen in submappen van deze locatie. Wanneer de storage instelling niet is opgegeven, wordt het systeem standaard ingesteld op een locatie in dbfs:/pipelines/ .De storage instelling kan niet worden gewijzigd nadat een pijplijn is gemaakt. |
channel Type: string De versie van de Delta Live Tables-runtime die moet worden gebruikt. De ondersteunde waarden zijn: - preview om uw pijplijn te testen met toekomstige wijzigingen in de runtimeversie.- current om de huidige runtimeversie te gebruiken.Het veld channel is optioneel. De standaardwaarde iscurrent . Databricks raadt aan om de huidige runtimeversie voor productieworkloads te gebruiken. |
edition Typ string De producteditie van Delta Live Tables om de pijplijn uit te voeren. Met deze instelling kunt u de beste producteditie kiezen op basis van de vereisten van uw pijplijn: - CORE om streaming-opnameworkloads uit te voeren.- PRO voor het uitvoeren van streaming-opname- en wijzigingsgegevensopnameworkloads (CDC).nl-NL: - ADVANCED voor het uitvoeren van streaming-opnameworkloads, CDC-workloads en workloads waarvoor Delta Live Tables verwachtingen nodig zijn om beperkingen voor gegevenskwaliteit af te dwingen.Het veld edition is optioneel. De standaardwaarde isADVANCED . |
photon Type: boolean Een vlag die aangeeft of photon moet worden gebruikt om de pijplijn uit te voeren. Photon is de Krachtige Spark-engine van Azure Databricks. Pijplijnen met foton worden gefactureerd tegen een ander tarief dan niet-Photon-pijplijnen. Het veld photon is optioneel. De standaardwaarde is false . |
pipelines.maxFlowRetryAttempts Type: int Als er een fout optreedt die opnieuw kan worden geprobeerd tijdens een pijplijnupdate, is dit het maximum aantal keren dat een stroom opnieuw moet worden geprobeerd voordat de pijplijnupdate mislukt Standaard: twee nieuwe pogingen. Wanneer er een fout optreedt die opnieuw kan worden geprobeerd, probeert de Delta Live Tables-runtime de stroom drie keer uit te voeren, inclusief de oorspronkelijke poging. |
pipelines.numUpdateRetryAttempts Type: int Als er een fout optreedt die opnieuw kan worden geprobeerd tijdens een update, is dit het maximum aantal keren dat de update opnieuw moet worden uitgevoerd voordat de update permanent mislukt. De nieuwe poging wordt uitgevoerd als een volledige update. Deze parameter is alleen van toepassing op pijplijnen die worden uitgevoerd in de productiemodus. Hernieuwingen worden niet uitgevoerd als uw pijplijn in ontwikkelingsmodus draait of wanneer u een Validate update uitvoert.Verstek: - Vijf voor geactiveerde pijpleidingen. - Onbeperkt voor continue pijplijnen. |
tabeleigenschappen van Delta Live Tables
Naast de tabeleigenschappen die worden ondersteund door Delta Lake, kunt u de volgende tabeleigenschappen instellen.
Tabeleigenschappen |
---|
pipelines.autoOptimize.managed Standaardwaarde: true Hiermee schakelt u automatisch geplande optimalisatie van deze tabel in of uit. |
pipelines.autoOptimize.zOrderCols Standaard: Geen Een optionele tekenreeks met een door komma's gescheiden lijst met kolomnamen om deze tabel op z-volgorde te orden. Bijvoorbeeld pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Standaardwaarde: true Hiermee bepaalt u of een volledige vernieuwing is toegestaan voor deze tabel. |
Triggerinterval voor pijplijnen
U kunt een pijplijntriggerinterval opgeven voor de gehele Delta Live Tables-pijplijn of als onderdeel van een gegevenssetdeclaratie. Zie Triggerinterval instellen voor continue pijplijnen.
pipelines.trigger.interval |
---|
De standaardwaarde is gebaseerd op het stroomtype: - Vijf seconden voor streamingquery's. - Eén minuut voor volledige query's wanneer alle invoergegevens afkomstig zijn uit Delta-bronnen. - Tien minuten voor volledige query's wanneer sommige gegevensbronnen mogelijk niet-Delta zijn. De waarde is een getal plus de tijdseenheid. Hier volgen de geldige tijdseenheden: - second , seconds - minute , minutes - hour , hours - day , days U kunt de enkelvoudige of meervoudseenheid gebruiken bij het definiëren van de waarde, bijvoorbeeld: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
Clusterkenmerken die geen gebruikerssettabel zijn
Omdat Delta Live Tables de levenscyclus van clusters beheert, worden veel clusterinstellingen ingesteld door Delta Live Tables en kunnen ze niet handmatig worden geconfigureerd door gebruikers, in een pijplijnconfiguratie of in een clusterbeleid dat wordt gebruikt door een pijplijn. De volgende tabel bevat deze instellingen en waarom ze niet handmatig kunnen worden ingesteld.
Velden |
---|
cluster_name Delta Live Tables stelt de namen in van de clusters die worden gebruikt om pijplijnupdates uit te voeren. Deze namen kunnen niet worden overschreven. |
data_security_mode access_mode Deze waarden worden automatisch ingesteld door het systeem. |
spark_version Delta Live Tables-clusters worden uitgevoerd op een aangepaste versie van Databricks Runtime die voortdurend wordt bijgewerkt met de nieuwste functies. De versie van Spark is gebundeld met de Databricks Runtime-versie en kan niet worden overschreven. |
autotermination_minutes Omdat Delta Live Tables automatische beëindiging van clusters beheert en logica opnieuw gebruikt, kan de tijd voor automatische beëindiging van het cluster niet worden overschreven. |
runtime_engine Hoewel u dit veld kunt beheren door Photon in te schakelen voor uw pijplijn, kunt u deze waarde niet rechtstreeks instellen. |
effective_spark_version Deze waarde wordt automatisch ingesteld door het systeem. |
cluster_source Dit veld wordt ingesteld door het systeem en heeft het kenmerk Alleen-lezen. |
docker_image Omdat Delta Live Tables de levenscyclus van het cluster beheert, kunt u geen aangepaste container met pijplijnclusters gebruiken. |
workload_type Deze waarde wordt ingesteld door het systeem en kan niet worden overschreven. |