Format ORC dans Data Factory dans Microsoft Fabric
Cet article explique comment configurer le format ORC dans le pipeline de données de Data Factory dans Microsoft Fabric.
Fonctionnalités prises en charge
Le format ORC est pris en charge pour les activités et connecteurs suivants en tant que source et destination.
Catégorie | Connecteur/activité |
---|---|
Connecteur pris en charge | Amazon S3 |
Compatible avec Amazon S3 | |
Stockage Blob Azure | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Système de fichiers | |
FTP | |
Google Cloud Storage | |
HTTP | |
Fichiers Lakehouse | |
Oracle Cloud Storage | |
SFTP | |
Activité prise en charge | Activité Copy (source/destination) |
Activité de recherche | |
Activité GetMetadata | |
Supprimer l’activité de données |
Format ORC dans l’activité de copie
Pour configurer le format ORC, choisissez votre connexion dans la source ou la destination de l’activité de copie du pipeline de données, puis sélectionnez ORC dans la liste déroulante Format de fichier. Sélectionnez Paramètres pour poursuivre la configuration de ce format.
Format ORC comme source
Après avoir sélectionné Paramètres dans la section Format de fichier, les propriétés suivantes s'affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier.
- Type de compression : choisissez le codec de compression utilisé pour lire les fichiers ORC dans la liste déroulante. Vous avez le choix entre Aucun, zlib et snappy.
Format ORC comme destination
Après avoir sélectionné Paramètres, les propriétés suivantes s'affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier.
- Type de compression : choisissez le codec de compression utilisé pour écrire les fichiers ORC dans la liste déroulante. Vous avez le choix entre Aucun, zlib et snappy.
Dans la section Avancé des paramètres sous l’onglet Destination, les propriétés suivantes liées au format ORC sont affichées.
- Nombre maximum de lignes par fichier : lors de l'écriture de données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier.
- Préfixe de nom de fichier : applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle :
<fileNamePrefix>_00000.<fileExtension>
. S'il n'est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données activé par l'option de partition.
Résumé du tableau
ORC en tant que source
Les propriétés suivantes sont prises en charge dans la section Source de l’activité de copie lors de l’utilisation du format ORC.
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Format de fichier | Le format de fichier que vous souhaitez utiliser. | ORC | Oui | type (sous datasetSettings ) :Orc |
Type de compression | Codec de compression utilisé pour lire les fichiers ORC. | Aucun zlib snappy |
Non | orcCompressionCodec : aucune zlib snappy |
ORC comme destination
Les propriétés suivantes sont prises en charge dans la section Destination de l’activité de copie lors de l’utilisation du format ORC.
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Format de fichier | Le format de fichier que vous souhaitez utiliser. | ORC | Oui | type (sous datasetSettings ) :Orc |
Type de compression | Codec de compression utilisé pour écrire les fichiers ORC. | Aucun zlib snappy |
Non | orcCompressionCodec : aucune zlib snappy |
Nombre maximum de lignes par fichier | Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier. | <votre max de lignes par fichier> | Non | maxRowsPerFile |
Préfixe du nom de fichier | Applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension> . S'il n'est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données activé par l'option de partition. |
<le préfixe de votre nom de fichier> | Non | fileNamePrefix |