Konfigurieren von Oracle Cloud Storage in einer Copy-Aktivität
In diesem Artikel wird beschrieben, wie Sie die Copy-Aktivität in einer Datenpipeline verwenden, um Daten aus Oracle Cloud Storage zu kopieren.
Voraussetzungen
Informationen zum Kopieren von Daten aus Oracle Cloud Storage finden Sie unter Object Storage Amazon S3 Compatibility API, um die Voraussetzungen und die erforderliche Berechtigung einzusehen.
Unterstütztes Format
Oracle Cloud Storage unterstützt die folgenden Dateiformate. Informationen zu formatbasierten Einstellungen finden Sie in den jeweiligen Artikeln.
- Avro-Format
- Binärformat
- Textformat mit Trennzeichen
- Excel-Format
- JSON-Format
- ORC-Format
- Parquet-Format
- XML-Format
Unterstützte Konfiguration
Um die Konfiguration der einzelnen Registerkarten unter einer Kopieraktivität zu finden, gehen Sie zu den folgenden Abschnitten:
Allgemein
Wechseln Sie für die Konfiguration der Registerkarte Allgemein zu Allgemein.
Quelle
Die folgenden Eigenschaften werden für Oracle Cloud Storage im Tab Quelle einer Copy-Aktivität unterstützt.
Die folgenden Eigenschaften sind erforderlich:
Datenspeichertyp: Wählen Sie Extern aus.
Verbindung: Wählen Sie eine Oracle Cloud Storage-Verbindung aus der Verbindungsliste aus. Wenn keine Verbindung besteht, erstellen Sie eine neue Oracle Cloud Storage-Verbindung, indem Sie Neu auswählen.
Dateipfadtyp: Sie können Dateipfad, Präfix, Platzhalterdateipfad oder Liste der Dateien als Dateipfadtyp auswählen. Die Konfiguration jeder dieser Einstellungen ist:
Dateipfad: Die Daten aus dem angegebenen Bucket oder dem in Dateipfad angegebenen Ordner/Dateipfad können kopiert werden.
Präfix: Geben Sie den Bucket und das Präfix an.
Bucket: Geben Sie den Namen des Oracle Cloud Storage-Bucket an. Diese Eingabe ist erforderlich.
Präfix: Präfix für den Namen des Oracle Cloud Storage-Schlüssels unter dem angegebenen Bucket zum Filtern von Oracle Cloud Storage-Dateien. Es werden die Oracle Cloud Storage-Schlüssel ausgewählt, deren Namen mit
given_bucket/this_prefix
beginnen. Es wird der dienstseitige Oracle Cloud Storage-Filter verwendet, dessen Leistung im Vergleich zu Platzhalterfiltern besser ist.
Dateipfad für die Verwendung von Platzhaltern: Geben Sie die Bucket- und Platzhalterpfade an.
Bucket: Geben Sie den Namen des Oracle Cloud Storage-Bucket an. Diese Eingabe ist erforderlich.
Dateipfad zur Verwendung von Platzhaltern: Geben Sie den Ordner- oder Dateipfad mit Platzhalterzeichen unter dem angegebenen Bucket an, um Ihre Quellordner oder -dateien zu filtern.
Folgende Platzhalter sind zulässig:
*
(entspricht null [0] oder mehr Zeichen) und?
(entspricht null [0] oder einem einzelnen Zeichen). Verwenden Sie^
als Escapezeichen, wenn Ihr Ordnername einen Platzhalter oder dieses Escapezeichen enthält. Weitere Beispiele finden Sie unter Beispiele für Ordner- und Dateifilter.- Platzhalterordnerpfad: Geben Sie den Ordnerpfad mit Platzhalterzeichen unter dem angegebenen Bucket an, um Quellordner zu filtern.
- Platzhalterdateiname: Geben Sie den Dateinamen mit Platzhalterzeichen unter dem angegebenen Bucket und Ordnerpfad (oder Platzhalterordnerpfad) an, um Quelldateien zu filtern.
Dateiliste: Geben Sie den Ordnerpfad und den Pfad zur Dateiliste an, um anzugeben, dass Sie einen bestimmten Satz von Dateien kopieren möchten. Verweisen Sie auf eine Textdatei, die eine Liste der zu kopierenden Dateien enthält, und zwar eine Datei pro Zeile. Dies ist der relative Pfad zu dem konfigurierten Pfad. Weitere Beispiele finden Sie unter Beispiele für Dateilisten.
- Ordnerpfad: Geben Sie den Pfad zum Ordner unter dem angegebenen Bucket an. Diese Eingabe ist erforderlich.
- Pfad zur Dateiliste: Geben Sie den Pfad der Textdatei an, die eine Liste der Dateien enthält, die Sie kopieren möchten.
Rekursiv: Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Es wird kein leerer Ordner oder Unterordner am Zielort kopiert oder erstellt, wenn dieses Kontrollkästchen aktiviert und das Ziel ein dateibasierter Speicher ist.
Dateiformat: Wählen Sie das verwendete Dateiformat aus der Dropdown-Liste aus. Wählen Sie Einstellungen aus, um das Dateiformat zu konfigurieren. Um Einstellungen der verschiedenen Dateiformate zu finden, gehen Sie in den Artikeln unter Unterstützte Formate.
Unter Erweitert können Sie die folgenden Felder angeben:
Nach der letzten Änderung filtern: Die Dateien werden nach den von Ihnen angegebenen Daten der letzten Änderung gefiltert. Diese Eigenschaft gilt nicht, wenn Sie Ihren Dateipfadtyp als Liste der Dateien konfigurieren.
- Startzeit (UTC): Die Dateien werden ausgewählt, wenn der Zeitpunkt ihrer letzten Änderung größer oder gleich der konfigurierten Zeitangabe ist.
- Endzeit (UTC): Die Dateien werden ausgewählt, wenn der Zeitpunkt ihrer letzten Änderung kleiner als die konfigurierte Zeitangabe ist.
Wenn Startzeit (UTC) einen datetime-Wert aufweist, aber Endzeit (UTC) NULL ist, bedeutet dies, dass die Dateien ausgewählt werden, deren Attribut für die letzte Änderung größer oder gleich dem datetime-Wert ist. Wenn Endzeit (UTC) einen datetime-Wert aufweist, aber Startzeit (UTC) NULL ist, bedeutet dies, dass die Dateien ausgewählt werden, deren Attribut für die letzte Änderung kleiner als der datetime-Wert ist. Die Eigenschaften können NULL sein, was bedeutet, dass kein Dateiattributfilter auf die Daten angewandt wird.
Partitionsermittlung aktivieren: Geben Sie an, ob die Partitionen anhand des Dateipfads analysiert und als andere Quellspalten hinzugefügt werden sollen. Diese Option ist standardmäßig nicht aktiviert und wird nicht unterstützt, wenn Sie das Binärdateiformat verwenden.
Stammverzeichnis der Partitionen: Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammverzeichnispfad an, um partitionierte Ordner als Datenspalten zu lesen.
Ohne Angabe gilt standardmäßig Folgendes:
- Wenn Sie einen Dateipfad oder die Liste der Dateien in der Quelle verwenden, ist der Partitionsstammpfad der von Ihnen konfigurierte Pfad.
- Wenn Sie einen Platzhalterordnerfilter verwenden, ist der Stammpfad der Partition der Unterpfad vor dem ersten Platzhalter.
- Wenn Sie ein Präfix verwenden, ist der Stammpfad der Partition ein Unterpfad vor dem letzten “/“.
Angenommen, Sie konfigurieren den Pfad beispielsweise als
root/folder/year=2020/month=08/day=27
:- Wenn Sie den Partitionsstammpfad als
root/folder/year=2020
angeben, generiert die Kopieraktivität zwei weitere Spalten, Monat und Tag. Diese Spalten weisen zusätzlich zu den Spalten in den Dateien die Werte "08" bzw. "27" auf. - Wenn kein Stammpfad für die Partition angegeben ist, wird keine zusätzliche Spalte generiert.
Maximale Anzahl gleichzeitiger Verbindungen: Die Obergrenze der gleichzeitigen Verbindungen zum Datenspeicher, die während des Ausführens der Aktivität hergestellt werden. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten.
Zusätzliche Spalten: Fügen Sie weitere Datenspalten hinzu, um den relativen Pfad oder statischen Wert der Quelldateien zu speichern. Für Letzteres wird ein Ausdruck unterstützt.
Zuordnung
Wechseln Sie für die Konfiguration der Registerkarte Zuordnung zu Konfigurieren der Zuordnungen auf der Registerkarte “Zuordnung“. Wenn Sie Binär als Dateiformat wählen, wird die Zuordnung nicht unterstützt.
Einstellungen
Wechseln Sie für die Konfiguration der Registerkarte Einstellungen zu Konfigurieren der anderen Einstellungen auf der Registerkarte “Einstellungen“.
Tabellenzusammenfassung
Die folgende Tabelle enthält weitere Informationen über die Kopieraktivitäten in Oracle Cloud Storage.
Quellinformationen
Name | Beschreibung des Dataflows | Wert | Erforderlich | JSON-Skripteigenschaft |
---|---|---|---|---|
Datenspeichertyp | Ihr Datenspeichertyp | Extern | Ja | / |
Verbindung | Ihre Verbindung mit dem Quelldatenspeicher | <Ihrer Oracle Cloud Storage-Verbindung> | Ja | Verbindung |
Dateipfadtyp | Der Dateipfadtyp, der zum Abrufen von Quelldaten verwendet wird. | • Dateipfad • Präfix • Platzhalterdateipfad • Dateiliste |
Ja | / |
Für Dateipfad | ||||
Bucket | Der Name des Oracle Cloud Storage-Buckets. | <Ihr Bucketname> | Ja | bucketName |
Verzeichnis | Der Pfad zum Ordner unter dem angegebenen Bucket. | <Ihr Ordnername> | No | folderpath |
Dateiname | Der Name der Datei unter dem angegebenen Bucket und Ordnerpfad. | <Ihr Dateiname> | No | fileName |
Für Präfix | ||||
Bucket | Der Name des Oracle Cloud Storage-Buckets. | <Ihr Bucketname> | Ja | bucketName |
Präfix | Das Präfix für den Namen des Oracle Cloud Storage-Schlüssels unter dem angegebenen Bucket, zum Filtern von Oracle Cloud Storage-Quelldateien. | <Ihr Präfix> | Nein | prefix |
Für Platzhalterdateipfad | ||||
Bucket | Der Name des Oracle Cloud Storage-Buckets. | <Ihr Bucketname> | Ja | bucketName |
Platzhalterordnerpfad | Der Ordnerpfad mit Platzhalterzeichen unter dem angegebenen Bucket zum Filtern von Quellordnern. | <Ihr Ordnerpfad mit Platzhalterzeichen> | No | wildcardFolderPath |
Platzhalterdateiname | Der Dateiname mit Platzhalterzeichen unter dem angegebenen Bucket und Ordnerpfad (oder Platzhalterordnerpfad) für das Filtern von Quelldateien. | <Ihr Dateiname mit Platzhalterzeichen> | Ja | wildcardFileName |
Für Dateiliste | ||||
Bucket | Der Name des Oracle Cloud Storage-Buckets. | <Ihr Bucketname> | Ja | bucketName |
Verzeichnis | Der Pfad zum Ordner unter dem angegebenen Bucket. | <Ihr Ordnername> | No | folderpath |
Pfad zur Dateiliste | Diese Eigenschaft gibt an, dass eine angegebene Dateigruppe kopiert werden soll. Verweisen Sie auf eine Textdatei, die eine Liste der zu kopierenden Dateien enthält, und zwar eine Datei pro Zeile. | < Dateilistenpfad > | Nein | fileListPath |
Dateiformat | Das Dateiformat der Quelldaten. Informationen zu den verschiedenen Dateiformaten finden Sie in den Artikeln unter Unterstützte Formate. | / | Ja | / |
Rekursiv | Gibt an, ob die Daten rekursiv aus den Unterordnern oder nur aus dem angegebenen Ordner gelesen werden. Es wird kein leerer Ordner oder Unterordner am Zielort kopiert oder erstellt, wenn dieses Kontrollkästchen aktiviert und das Ziel ein dateibasierter Speicher ist. | ausgewählt (Standardwert) oder nicht ausgewählt | Nein | recursive |
Nach der letzten Änderung filtern | Die Dateien mit dem Zeitpunkt der letzten Änderung im Bereich [Startzeit, Endzeit] werden für die weitere Verarbeitung gefiltert. Die Zeitangabe wird auf die UTC-Zeitzone im Format yyyy-mm-ddThh:mm:ss.fffZ angewendet. Diese Eigenschaften können übersprungen werden, was bedeutet, dass kein Dateiattributfilter angewendet wird. Diese Eigenschaft gilt nicht, wenn Sie Ihren Dateipfadtyp als Liste der Dateien konfigurieren. |
datetime | Nein | modifiedDatetimeStart modifiedDatetimeEnd |
Partitionsermittlung aktivieren | Gibt an, ob die Partitionen aus dem Dateipfad analysiert und als andere Quellspalten hinzugefügt werden sollen. | Aktiviert oder deaktiviert (Standardwert) | Nein | enablePartitionDiscovery: TRUE oder FALSE (Standardwert) |
Partitionsstammpfad | Wenn die Partitionsermittlung aktiviert ist, geben Sie den absoluten Stammpfad an, um partitionierte Ordner als Datenspalten zu lesen. | < Ihr Partitionsstammpfad > | No | partitionRootPath |
Maximal zulässige Anzahl paralleler Verbindungen | Die Obergrenze gleichzeitiger Verbindungen mit dem Datenspeicher während der Aktivitätsausführung. Geben Sie diesen Wert nur an, wenn Sie die Anzahl der gleichzeitigen Verbindungen begrenzen möchten. | <Maximal zulässige Anzahl paralleler Verbindungen> | Nein | maxConcurrentConnections |
Zusätzliche Spalten | Fügen Sie mehr Datenspalten zum relativen Pfad oder statischen Wert der Speicherquelldateien hinzu. Für Letzteres wird ein Ausdruck unterstützt. | • Name • Wert |
Nein | additionalColumns: • Name • Wert |