Verwalten von Integration Runtimes
In Data Factory wird mit einer Aktivität eine durchzuführende Aktion definiert. Mit einem verknüpften Dienst wird ein Zieldatenspeicher oder ein Computedienst definiert. Eine Integration Runtime stellt die Infrastruktur für die Aktivität und die verknüpften Dienste bereit.
Die Integration Runtime wird vom verknüpften Dienst oder der Aktivität referenziert und stellt die Computeumgebung bereit, in der die Aktivität entweder ausgeführt wird oder aus der sie verteilt wird. Auf diese Weise kann die Aktivität in der Region durchgeführt werden, die dem Zieldatenspeicher bzw. dem Computedienst am nächsten liegt, und es kann die höchste Leistung erzielt werden, während gleichzeitig die Anforderungen an die Sicherheit und Konformität erfüllt werden.
Kurz gesagt, die Integration Runtime (IR) ist die Computeinfrastruktur, die von Azure Data Factory verwendet wird. Sie bietet die folgenden Funktionen für die Datenintegration über verschiedene Netzwerkumgebungen hinweg, einschließlich:
- Datenfluss: Ausführen eines Datenflusses in einer verwalteten Azure-Computeumgebung.
- Datenverschiebung: Dient zum Kopieren von Daten in Datenspeichern im öffentlichen Netzwerk und Datenspeichern im privaten Netzwerk (lokales oder virtuelles privates Netzwerk). Es wird Unterstützung für integrierte Connectors, Formatkonvertierung, Spaltenzuordnung und eine leistungsstarke und skalierbare Datenübertragung bereitgestellt.
- Aktivitätsverteilung:: Dient zum Verteilen und Überwachen von Transformationsaktivitäten, die in vielen verschiedenen Computediensten wie Azure Databricks, Azure HDInsight, Azure Machine Learning, Azure SQL-Datenbank, SQL Server und vielen weiteren ausgeführt werden.
- SSIS-Paketausführung: Dient zum nativen Ausführen von SSIS-Paketen (SQL Server Integration Services) in einer verwalteten Azure-Computeumgebung.
Immer wenn eine Azure Data Factory-Instanz erstellt wird, wird eine standardmäßige Integration Runtime-Umgebung erstellt, die Vorgänge mit Cloud-Datenspeichern und Computediensten im öffentlichen Netzwerk unterstützt. Dies zeigt sich, wenn die Integration Runtime auf automatische Auflösung (Autor-Resolve) festgelegt ist.
Integrationslaufzeit-Typen
Data Factory verfügt über drei Integrationslaufzeit-Typen. Sie sollten den Typ wählen, der die Anforderungen an die gewünschten Datenintegrationsfunktionen und die Netzwerkumgebung am besten erfüllt. Diese drei Typen lauten:
- Azure
- Selbstgehostet
- Azure-SSIS
Sie können die Einstellung für die Integration Runtime explizit in der Eigenschaft connectVia festlegen. Wenn diese nicht definiert ist, wird die standardmäßige Integration Runtime verwendet, wobei die Eigenschaft auf „Auto-Resolve“ (automatische Auflösung) festgelegt wird.
In der folgenden Tabelle sind die Funktionen und die Netzwerkunterstützung für die einzelnen Integrationslaufzeit-Typen beschrieben:
IR-Typ | Öffentliches Netzwerk | Privates Netzwerk |
---|---|---|
Azure | Datenfluss | Datenfluss |
Datenverschiebung | Datenverschiebung | |
Aktivitätsverteilung | Aktivitätsverteilung | |
Selbstgehostet | Datenverschiebung | Datenverschiebung |
Aktivitätsverteilung | Aktivitätsverteilung | |
Azure-SSIS | SSIS-Paketausführung | SSIS-Paketausführung |
Bestimmen der zu verwendenden Integration Runtime
Es gibt eine Reihe von Faktoren, die sich auf die von Ihnen verwendete Integration Runtime auswirken. Im Folgenden finden Sie einen Leitfaden, der Ihnen bei der Auswahl der richtigen IR helfen soll.
Copy-Aktivität
Für die Copy-Aktivität (Kopieren) werden verknüpfte Quell- und Senkendienste benötigt, um die Richtung des Datenflusses zu definieren. Anhand der folgenden Logik wird ermittelt, welche Integrationslaufzeit-Instanz zum Durchführen des Kopiervorgangs verwendet wird:
Kopieren zwischen zwei Clouddatenquellen: Wenn sowohl der verknüpfte Quelldienst als auch der verknüpfte Senkendienst die Azure-Integrationslaufzeit nutzt, verwendet ADF die regionale Azure-Integrationslaufzeit (sofern angegeben) oder bestimmt automatisch einen Ort der Azure-Integrationslaufzeit, sofern Sie wie unter Ort der Integrationslaufzeit beschrieben die Integrationslaufzeit mit automatischer Auflösung (Standardeinstellung) ausgewählt haben.
Kopieren zwischen einer Clouddatenquelle und einer Datenquelle im privaten Netzwerk: Wenn entweder der verknüpfte Quellen- oder Senkendienst auf eine selbstgehostete Integrationslaufzeit zeigt, wird die Kopieraktivität unter dieser selbstgehosteten Integrationslaufzeit ausgeführt.
Kopieren zwischen zwei Datenquellen im privaten Netzwerk: Sowohl der verknüpfte Quelldienst als auch der verknüpfte Senkendienst müssen auf dieselbe Integrationslaufzeit-Instanz verweisen, und diese Integrationslaufzeit wird zum Ausführen der Copy-Aktivität verwendet.
Lookup-/GetMetadata-Aktivität
Die Lookup-/GetMetadata-Aktivität wird für die Integrationslaufzeit ausgeführt, die dem verknüpften Datenspeicherdienst zugeordnet ist.
Transformationsaktivität
Jede Transformationsaktivität verfügt über einen verknüpften Zielcomputedienst, der auf eine Integrationslaufzeit verweist. Über diese Instanz der Integrationslaufzeit wird die Transformationsaktivität bereitgestellt.
Datenflussaktivität
Die Datenflussaktivität wird auf der ihr zugeordneten Integration Runtime ausgeführt.