Das Binärformat in Azure Data Factory und Synapse Analytics

Artikel
01/05/2024

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

Das Binärformat wird für die folgenden Connectors unterstützt: Amazon S3, Amazon S3-kompatibler Speicher, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, Dateisystem, FTP, Google Cloud Storage, Hadoop Distributed File System, HTTP, Oracle Cloud Storage und SFTP.

Sie können ein binäres Dataset in der Kopieraktivität, der GetMetadata-Aktivität oder der Delete-Aktivität verwenden. Wenn Sie ein binäres Dataset verwenden, analysiert der Dienst den Dateiinhalt nicht, sondern lässt ihn unverändert.

Hinweis

Wenn Sie ein binäres Dataset in der Kopieraktivität verwenden, können Sie aus diesem Dataset nur in ein binäres Dataset kopieren.

Dataset-Eigenschaften

Eine vollständige Liste mit den Abschnitten und Eigenschaften, die zum Definieren von Datasets zur Verfügung stehen, finden Sie im Artikel zu Datasets. Dieser Abschnitt enthält eine Liste der Eigenschaften, die vom binären Dataset unterstützt werden.

Eigenschaft	Beschreibung	Erforderlich
type	Die „type“-Eigenschaft des Datasets muss auf Binär festgelegt werden.	Ja
location	Speicherorteinstellungen der Datei(en) Jeder dateibasierte Connector verfügt unter `location` über seinen eigenen Speicherorttyp und unterstützte Eigenschaften. Informationen hierzu finden Sie im Abschnitt > „Dataset-Eigenschaften“ des Artikels über Connectors.	Ja
compression	Gruppe von Eigenschaften zum Konfigurieren der Dateikomprimierung. Konfigurieren Sie diesen Abschnitt, wenn Sie während der Aktivitätsausführung eine Komprimierung/Dekomprimierung durchführen möchten.	Nein
type	Der zum Lesen und Schreiben von Binärdateien verwendete Codec für die Komprimierung. Zulässige Werte sind bzip2, gzip, deflate, ZipDeflate, Tar und TarGzip. Beachten Sie, dass bei Verwendung der Kopieraktivität zum Dekomprimieren von ZipDeflate-/TarGzip-/Tar-Dateien und zum Schreiben in den dateibasierten Senkendatenspeicher diese Dateien standardmäßig in den Ordner `<path specified in dataset>/<folder named as source compressed file>/` extrahiert werden. Verwenden Sie in diesem Fall `preserveZipFileNameAsFolder`/`preserveCompressionFileNameAsFolder` als Quelle der Kopieraktivität, um zu steuern, ob der Name der komprimierten Dateien als Ordnerstruktur beibehalten werden soll.	Nein
level	Das Komprimierungsverhältnis. Wenden Sie es an, wenn das Dataset in der Senke der Kopieraktivität verwendet wird. Zulässige Werte sind Optimal oder Sehr schnell. - Sehr schnell: Der Komprimierungsvorgang wird schnellstmöglich abgeschlossen, auch wenn die resultierende Datei nicht optimal komprimiert ist. - Optimal: Die Daten sollten optimal komprimiert sein, auch wenn der Vorgang eine längere Zeit in Anspruch nimmt. Weitere Informationen finden Sie im Thema Komprimierungsstufe .	Nein

Nachfolgend sehen Sie ein Beispiel für ein binäres Dataset in Azure Blob Storage:

{
    "name": "BinaryDataset",
    "properties": {
        "type": "Binary",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "compression": {
                "type": "ZipDeflate"
            }
        }
    }
}

Eigenschaften der Kopieraktivität

Eine vollständige Liste mit den Abschnitten und Eigenschaften zum Definieren von Aktivitäten finden Sie im Artikel Pipelines. Dieser Abschnitt enthält eine Liste der Eigenschaften, die von der binären Quelle und Senke unterstützt werden.

Hinweis

Wenn Sie ein binäres Dataset in der Kopieraktivität verwenden, können Sie aus diesem Dataset nur in ein binäres Dataset kopieren.

„Binär“ als Quelle

Die folgenden Eigenschaften werden im Abschnitt *source* der Kopieraktivität unterstützt.

Eigenschaft	Beschreibung	Erforderlich
type	Die „type“-Eigenschaft der Quelle für die Kopieraktivität muss auf BinarySource festgelegt werden.	Ja
formatSettings	Eine Gruppe von Eigenschaften. Weitere Informationen zu Leseeinstellungen für Binärdateien finden Sie in der Tabelle unten.	Nein
storeSettings	Eine Gruppe von Eigenschaften für das Lesen von Daten aus einem Datenspeicher. Jeder dateibasierte Connector verfügt unter `storeSettings` über eigene unterstützte Leseeinstellungen. Informationen hierzu finden Sie im Abschnitt über die >Eigenschaften der Copy-Aktivität im Artikel über Connectors.	Nein

Unterstützte Leseeinstellungen für Binärdateien unter formatSettings:

Eigenschaft	Beschreibung	Erforderlich
type	Der Typ von „formatSettings“ muss auf BinaryReadSettings festgelegt werden.	Ja
compressionProperties	Eine Gruppe von Eigenschaften zur Festlegung, wie Daten bei einem bestimmten Komprimierungscodec dekomprimiert werden können.	Nein
preserveZipFileNameAsFolder (unter `compressionProperties`->`type` als `ZipDeflateReadSettings`)	Diese Eigenschaft gilt, wenn das Eingabedataset mit der ZipDeflate-Komprimierung konfiguriert wurde. Sie gibt an, ob der Name der ZIP-Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll. – Lautet der Wert true (Standard) , schreibt der Dienst die entpackten Dateien in `<path specified in dataset>/<folder named as source zip file>/`. – Lautet der Wert false, schreibt der Dienst die entpackten Dateien direkt in `<path specified in dataset>`. Stellen Sie sicher, dass es in unterschiedlichen ZIP-Quelldateien keine doppelten Dateinamen gibt, um Racebedingungen oder unerwartetes Verhalten zu vermeiden.	Nein
preserveCompressionFileNameAsFolder (unter `compressionProperties`->`type` als `TarGZipReadSettings` oder `TarReadSettings`)	Gilt, wenn das Eingabedataset mit der Komprimierung TarGzip/Tar konfiguriert wurde. Gibt an, ob der Name der komprimierten Quelldatei während Kopiervorgängen als Ordnerstruktur beibehalten werden soll. – Lautet der Wert true (Standard) , schreibt der Dienst die dekomprimierten Dateien in `<path specified in dataset>/<folder named as source compressed file>/`. – Lautet der Wert false, schreibt der Dienst die dekomprimierten Dateien direkt in `<path specified in dataset>`. Stellen Sie sicher, dass es in unterschiedlichen Quelldateien keine doppelten Dateinamen gibt, um Racebedingungen oder unerwartetes Verhalten zu vermeiden.	Nein

"activities": [
    {
        "name": "CopyFromBinary",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "BinarySource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "deleteFilesAfterCompletion": true
                },
                "formatSettings": {
                    "type": "BinaryReadSettings",
                    "compressionProperties": {
                        "type": "ZipDeflateReadSettings",
                        "preserveZipFileNameAsFolder": false
                    }
                }
            },
            ...
        }
        ...
    }
]

„Binär“ als Senke

Die folgenden Eigenschaften werden im Abschnitt *sink* der Kopieraktivität unterstützt.

Eigenschaft	Beschreibung	Erforderlich
type	Die „type“-Eigenschaft der Quelle für die Kopieraktivität muss auf BinarySink festgelegt werden.	Ja
storeSettings	Eine Gruppe von Eigenschaften für das Schreiben von Daten in einen Datenspeicher. Jeder dateibasierte Connector verfügt unter `storeSettings` über eigene unterstützte Schreibeinstellungen. Informationen hierzu finden Sie im Abschnitt über die >Eigenschaften der Copy-Aktivität im Artikel über Connectors.	No

Freigeben über

Das Binärformat in Azure Data Factory und Synapse Analytics

Dataset-Eigenschaften

Eigenschaften der Kopieraktivität

„Binär“ als Quelle

„Binär“ als Senke

Feedback

Zusätzliche Ressourcen

Freigeben über

Das Binärformat in Azure Data Factory und Synapse Analytics

Dataset-Eigenschaften

Eigenschaften der Kopieraktivität

„Binär“ als Quelle

„Binär“ als Senke

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen