Partager via


Format ORC dans Data Factory dans Microsoft Fabric

Cet article explique comment configurer le format ORC dans le pipeline de données de Data Factory dans Microsoft Fabric.

Fonctionnalités prises en charge

Le format ORC est pris en charge pour les activités et connecteurs suivants en tant que source et destination.

Catégorie Connecteur/activité
Connecteur pris en charge Amazon S3
Compatible avec Amazon S3
Stockage Blob Azure
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Files
Système de fichiers
FTP
Google Cloud Storage
HTTP
Fichiers Lakehouse
Oracle Cloud Storage
SFTP
Activité prise en charge Activité Copy (source/destination)
Activité de recherche
Activité GetMetadata
Supprimer l’activité de données

Format ORC dans l’activité de copie

Pour configurer le format ORC, choisissez votre connexion dans la source ou la destination de l’activité de copie du pipeline de données, puis sélectionnez ORC dans la liste déroulante Format de fichier. Sélectionnez Paramètres pour poursuivre la configuration de ce format.

Capture d'écran montrant les paramètres du format de fichier.

Format ORC comme source

Après avoir sélectionné Paramètres dans la section Format de fichier, les propriétés suivantes s'affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier.

Capture d’écran montrant la source du format de fichier ORC.

  • Type de compression : choisissez le codec de compression utilisé pour lire les fichiers ORC dans la liste déroulante. Vous avez le choix entre Aucun, zlib et snappy.

Format ORC comme destination

Après avoir sélectionné Paramètres, les propriétés suivantes s'affichent dans la boîte de dialogue contextuelle Paramètres de format de fichier.

Capture d’écran montrant la destination du format de fichier ORC.

  • Type de compression : choisissez le codec de compression utilisé pour écrire les fichiers ORC dans la liste déroulante. Vous avez le choix entre Aucun, zlib et snappy.

Dans la section Avancé des paramètres sous l’onglet Destination, les propriétés suivantes liées au format ORC sont affichées.

  • Nombre maximum de lignes par fichier : lors de l'écriture de données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier.
  • Préfixe de nom de fichier : applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension>. S'il n'est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données activé par l'option de partition.

Résumé du tableau

ORC en tant que source

Les propriétés suivantes sont prises en charge dans la section Source de l’activité de copie lors de l’utilisation du format ORC.

Nom Description Valeur Obligatoire Propriété de script JSON
Format de fichier Le format de fichier que vous souhaitez utiliser. ORC Oui type (sous datasetSettings) :
Orc
Type de compression Codec de compression utilisé pour lire les fichiers ORC. Aucun
zlib
snappy
Non orcCompressionCodec :
aucune
zlib
snappy

ORC comme destination

Les propriétés suivantes sont prises en charge dans la section Destination de l’activité de copie lors de l’utilisation du format ORC.

Nom Description Valeur Obligatoire Propriété de script JSON
Format de fichier Le format de fichier que vous souhaitez utiliser. ORC Oui type (sous datasetSettings) :
Orc
Type de compression Codec de compression utilisé pour écrire les fichiers ORC. Aucun
zlib
snappy
Non orcCompressionCodec :
aucune
zlib
snappy
Nombre maximum de lignes par fichier Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier. <votre max de lignes par fichier> Non maxRowsPerFile
Préfixe du nom de fichier Applicable lorsque le nombre maximal de lignes par fichier est configuré. Spécifiez le préfixe du nom de fichier lors de l’écriture de données dans plusieurs fichiers, ce qui a généré ce modèle : <fileNamePrefix>_00000.<fileExtension>. S'il n'est pas spécifié, le préfixe du nom de fichier est généré automatiquement. Cette propriété ne s'applique pas lorsque la source est un magasin basé sur des fichiers ou un magasin de données activé par l'option de partition. <le préfixe de votre nom de fichier> Non fileNamePrefix