Referenzieren von Delta Live Tables-Eigenschaften
Dieser Artikel enthält eine Referenz zu den JSON-Einstellungsspezifikationen und Tabelleneigenschaften von Delta Live Tables in Azure Databricks. Weitere Informationen zur Verwendung dieser verschiedenen Eigenschaften und Konfigurationen finden Sie in den folgenden Artikeln:
Konfigurationen für Delta Live Tables-Pipelines
Felder |
---|
id Typ: string Dies ist ein global eindeutiger Bezeichner für diese Pipeline. Der Bezeichner wird vom System zugewiesen und kann nicht geändert werden. |
name Typ: string Dies ist ein Anzeigename für diese Pipeline. Der Name kann verwendet werden, um Pipelineaufträge auf der Benutzeroberfläche zu identifizieren. |
storage Typ: string Dies ist ein Speicherort im DBFS oder Cloudspeicher, an dem für die Pipelineausführung erforderliche Ausgabedaten und Metadaten gespeichert werden. Tabellen und Metadaten werden in Unterverzeichnissen dieses Speicherorts gespeichert. Wenn die storage -Einstellung nicht angegeben ist, verwendet das System standardmäßig einen Speicherort in dbfs:/pipelines/ .Die storage -Einstellung kann nach dem Erstellen einer Pipeline nicht mehr geändert werden. |
configuration Typ: object Dies ist eine optionale Liste der Einstellungen, die der Spark-Konfiguration des Clusters hinzugefügt werden sollen, der die Pipeline ausführt. Diese Einstellungen werden von der Delta Live Tables-Runtime gelesen und sind für Pipelineabfragen über die Spark-Konfiguration verfügbar. Elemente müssen als key:value -Paare formatiert werden. |
libraries Typ: array of objects Dies ist ein Array von Notebooks, das den Pipelinecode und die erforderlichen Artefakte enthält. |
clusters Typ: array of objects Dies ist ein Array von Spezifikationen für die Cluster zum Ausführen der Pipeline. Wenn dies nicht angegeben wird, wählen Pipelines automatisch eine Standardclusterkonfiguration für die Pipeline aus. |
development Typ: boolean Dies ist ein Flag, das angibt, ob die Pipeline im Modus development oder production ausgeführt werden soll.Der Standardwert ist true |
notifications Typ: array of objects Ein optionales Array von Spezifikationen für E-Mail-Benachrichtigungen, wenn ein Pipelineupdate abgeschlossen ist, schlägt mit einem wiederholungsfähigen Fehler fehl, schlägt mit einem nicht behebbaren Fehler fehl, oder ein Flow ist fehlerhaft. |
continuous Typ: boolean Dies ist ein Flag, das angibt, ob die Pipeline kontinuierlich ausgeführt werden soll. Der Standardwert ist false . |
target Typ: string Dies ist der Name einer Datenbank zum Beibehalten von Pipelineausgabedaten. Wenn Sie die target -Einstellung konfigurieren, können Sie die Ausgabedaten der Pipeline über die Azure Databricks-Benutzeroberfläche abfragen. |
channel Typ: string Die Version der zu verwendenden Delta Live Tables-Runtime. Die unterstützten Werte sind: - preview , um Ihre Pipeline mit anstehenden Änderungen an der Runtimeversion zu testen.- current , um die aktuelle Runtimeversion zu verwenden.Das Feld channel ist optional. Der Standardwert lautetcurrent . Databricks empfiehlt die Verwendung der aktuellen Runtimeversion für Produktionsworkloads. |
edition Geben Sie string einDie Produktedition von Delta Live Tables für die Ausführung der Pipeline. Mit dieser Einstellung können Sie die beste Produktedition basierend auf den Anforderungen Ihrer Pipeline auswählen: - CORE zum Ausführen von Workloads zur Streamerfassung- PRO zum Ausführen von Workloads zur Streamerfassung und CDC-Workloads (Change Data Capture)- ADVANCED zum Ausführen von Workloads zur Streamerfassung, CDC-Workloads und Workloads, die Delta Live Tables-Erwartungen erfordern, um Einschränkungen bei der Datenqualität zu erzwingenDas Feld edition ist optional. Der Standardwert lautetADVANCED . |
photon Typ: boolean Dieses Flag gibt an, ob für die Ausführung der Pipeline Was ist Photon? verwendet werden soll. Photon ist die Hochleistungs-Spark-Engine von Azure Databricks. Pipelines mit Photon-Unterstützung werden mit einer anderen Rate als Nicht-Photon-Pipelines abgerechnet. Das Feld photon ist optional. Der Standardwert ist false . |
pipelines.maxFlowRetryAttempts Typ: int Die maximale Anzahl von Versuchen, einen Flow zu wiederholen, bevor ein Pipelineupdate als fehlgeschlagen betrachtet wird, wenn ein wiederholungsfähiger Fehler auftritt. Der Standardwert ist 2. Wenn ein wiederholungsfähiger Fehler auftritt, versucht die Delta Live Tables-Runtime standardmäßig dreimal, den Flow auszuführen, einschließlich des ursprünglichen Versuchs. |
pipelines.numUpdateRetryAttempts Typ: int Die maximale Anzahl von Versuchen, ein Update zu wiederholen, bevor das Update fehlschlägt, wenn ein wiederholungsfähiger Fehler auftritt. Der Wiederholungsversuch wird als vollständiges Update ausgeführt. Der Standardwert ist fünf. Dieser Parameter gilt nur für ausgelöste Updates, die im Produktionsmodus ausgeführt werden. Es gibt keinen Wiederholungsversuch, wenn Ihre Pipeline im Entwicklungsmodus ausgeführt wird. |
Delta Live Tables-Tabelleneigenschaften
Zusätzlich zu den von Delta Lake unterstützten Tabelleneigenschaften können Sie die folgenden Tabelleneigenschaften festlegen.
Tabelleneigenschaften |
---|
pipelines.autoOptimize.managed Standard: true Aktiviert oder deaktiviert die automatisch geplante Optimierung dieser Tabelle |
pipelines.autoOptimize.zOrderCols Standardwert: Keiner Eine optionale Zeichenfolge mit einer durch Trennzeichen getrennten Liste von Spaltennamen, nach der diese Tabelle in Z-Reihenfolge geordnet werden soll. Beispiel: pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Standard: true Steuert, ob eine vollständige Aktualisierung für diese Tabelle zulässig ist |
Triggerintervall für Pipelines
Sie können ein Pipelinetriggerintervall für die gesamte Delta Live Tables-Pipeline oder als Teil einer Datasetdeklaration angeben. Siehe Festlegen des Auslöserintervalls für fortlaufende Pipelines.
pipelines.trigger.interval |
---|
Der Standardwert basiert auf dem Flowtyp: – Fünf Sekunden für Streamingabfragen. – Eine Minute für vollständige Abfragen, wenn alle Eingabedaten aus Deltaquellen stammen. – Zehn Minuten für vollständige Abfragen, wenn einige Datenquellen möglicherweise keine Deltaquellen sind. Der Wert ist eine Zahl plus der Zeiteinheit. Dies sind die gültigen Zeiteinheiten: - second , seconds - minute , minutes - hour , hours - day , days Sie können die Singular- oder Pluraleinheit verwenden, wenn Sie den Wert definieren, z. B.: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
Clusterattribute, die nicht von Benutzer*innen festgelegt werden können
Da Delta Live Tables den Clusterlebenszyklus verwaltet, werden viele Clustereinstellungen von Delta Live Tables festgelegt und können nicht manuell von Benutzern in einer Pipelinekonfiguration oder in einer Clusterrichtlinie, die von einer Pipeline verwendet wird, konfiguriert werden. In der folgenden Tabelle sind diese Einstellungen aufgeführt und der Grund, warum sie nicht manuell festgelegt werden können.
Felder |
---|
cluster_name Delta Live Tables legt die Namen der Cluster fest, die zum Ausführen von Pipelineupdates verwendet werden. Diese Namen können nicht überschrieben werden. |
data_security_mode access_mode Diese Werte werden automatisch vom System festgelegt. |
spark_version Delta Live Tables-Cluster werden in einer benutzerdefinierten Version von Databricks Runtime ausgeführt, die ständig aktualisiert wird, um die neuesten Features einzuschließen. Die Spark-Version ist mit der Databricks Runtime-Version gebündelt und kann nicht überschrieben werden. |
autotermination_minutes Da Delta Live Tables die automatische Beendigungs- und Wiederverwendungslogik des Clusters verwaltet, kann der Zeitpunkt der automatischen Beendigung des Clusters nicht außer Kraft gesetzt werden. |
runtime_engine Obwohl Sie dieses Feld steuern können, indem Sie Photon für Ihre Pipeline aktivieren, können Sie diesen Wert nicht direkt festlegen. |
effective_spark_version Dieser Wert wird automatisch vom System festgelegt. |
cluster_source Dieses Feld wird vom System festgelegt und ist schreibgeschützt. |
docker_image Da Delta Live Tables den Clusterlebenszyklus verwaltet, können Sie keinen benutzerdefinierten Container mit Pipelineclustern verwenden. |
workload_type Dieser Wert wird vom System festgelegt und kann nicht überschrieben werden. |