Décompresser des jeux de données compressés
Décompresse les jeux de données d’un package zip dans le stockage utilisateur
Catégorie : entrée et sortie de données
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vue d’ensemble du module
cet article explique comment utiliser le module décompresser les jeux de données zippés dans Machine Learning Studio (classic) pour télécharger des fichiers de script et de données au format compressé, puis les décompresser pour les utiliser dans une expérience.
L’objectif de ce module est de réduire les temps de transfert de données lors de l’utilisation de jeux de données très volumineux en enregistrant et en chargeant vos fichiers de données dans un format compressé. En règle générale, la compression de fichiers est une bonne option lorsque votre jeu de données est si volumineux que vous souhaitez utiliser la compression pour le téléchargement, afin de réduire le temps de téléchargement et les coûts associés.
Le module prend comme entrée un jeu de données dans votre espace de travail. Le jeu de données doit avoir été téléchargé dans un format compressé. Le module décompresse ensuite le jeu de données et ajoute les données à votre espace de travail.
Comment utiliser décompresser des datasets compressés
cette section décrit comment préparer vos données, puis les décompresser dans Machine Learning Studio (classic).
Étape 1. Préparer les fichiers
Avant de charger votre fichier, assurez-vous que les données du fichier peuvent être utilisées dans Machine Learning :
Assurez-vous que les données du fichier utilisent l’encodage UTF-8.
si le fichier est suffisamment petit, vous pouvez l’ouvrir dans Bloc-notes puis enregistrer le fichier dans l’encodage souhaité. De nombreux autres éditeurs de texte offrent des fonctionnalités similaires. pour les fichiers CSV, vous pouvez utiliser les commandes enregistrer sous ou exporter de Excel pour spécifier un format et un encodage de fichier.
Vérifiez que les fichiers de données utilisent un formatpris en charge, tel que CSV, TSV, ARFF ou SVMLight.
Compressez les données en ajoutant le fichier de données à un .ZIP ou. Fichier d’archive au format GZ. Les autres types d’archive ne sont pas pris en charge.
Supprimer la protection par mot de passe. Si l’un des fichiers ou le dossier compressé lui-même a été chiffré ou protégé par mot de passe, vous devez déverrouiller ou déchiffrer le fichier avant de le télécharger. Le module ne peut pas détecter les types de données chiffrées et ne prend pas en charge les boîtes de dialogue de saisie de mot de passe provenant de clients arbitraires.
Étape 2. Télécharger le jeu de données à votre espace de travail
Ensuite, chargez le jeu de données zippé dans votre espace de travail expérimentation.
Cliquez sur nouveau, sélectionnez DataSet, puis sélectionnez à partir d’un fichier local.
Localisez le fichier compressé à charger. Lorsque vous sélectionnez le fichier, le type doit être automatiquement défini sur fichier zip (.zip).
Étape 3. Ajouter un jeu de données zippé à l’expérimentation
Une fois que le jeu de données a été téléchargé complètement, ajoutez-le à votre expérience au format compressé.
dans le volet de navigation de gauche de Machine Learning Studio (classique), sélectionnez datasets enregistrés, puis développez mes jeux de données.
Recherchez le jeu de données zippé que vous venez de charger, puis faites-le glisser vers le canevas de l’expérience.
Étape 4. Décompresser le DataSet
La dernière étape consiste à décompresser le jeu de données.
Connecter le jeu de données zippé à l’entrée du module décompresser les jeux de données zippés .
Dans DataSet à décompresser, tapez le nom d’un jeu de données unique à décompresser.
si vous avez enregistré une feuille de calcul avec le nom feuille1 en tant que Excel fichier CSV nommé Test.csv, le nom du jeu de données est Test.csv, et non feuil1.
Le nom que vous tapez dans la zone de texte DataSet à décompresser doit être exactement le même que le nom du fichier d’origine avant sa compression, y compris l’extension de nom de fichier. Par exemple, si vous souhaitez décompresser un DataSet en fonction du fichier texte Users.txt, tapez Users.txt, et non des utilisateurs.
Si vous placez plusieurs fichiers dans un dossier compressé, vous devez décompresser un jeu de données à la fois.
Conseil
Si vous laissez la propriété vide, le module récupère le nom du fichier à partir du fichier compressé, en supposant que le fichier d’archive compressé ne contient qu’un seul fichier source. Si l’archive compressée contient plusieurs fichiers, une erreur d’exécution est générée.
Pour format de fichier de jeu de données, spécifiez le format d’origine du DataSet : autrement dit, le format avant sa compression.
Vous pouvez charger et décompresser des jeux de données créés à l’aide de l’un de ces formats : CSV, ARFF, TSV, SvmLight.
Si cette propriété est laissée vide, le module identifie le DataSet à l’aide du nom du fichier source.
Sélectionnez l’option, le fichier comporte une ligne d’en-tête, si le jeu de données d’origine contenait une ligne d’en-tête. Dans le cas contraire, la première ligne de données est utilisée comme en-tête. Si ce n’est pas ce que vous souhaitez, ajoutez un en-tête avant l’entrée.
Cette option s’applique uniquement aux .CSV et. Fichiers TSV.
Notes
Si vous modifiez le format du fichier, cette option est réinitialisée.
Si le fichier est compressé, utilisez l’option de format de fichier de compression pour spécifier l’algorithme utilisé pour compresser ou développer le fichier.
Actuellement, les formats .ZIP et GZ (ou gzip) sont pris en charge.
Exécutez l’expérience.
Résultats
Pour vérifier que les données ont été correctement importées, cliquez avec le bouton droit sur le module groupes de données Zippés décompressés , puis sélectionnez visualiser .
Pour modifier le nom du jeu de données, cliquez avec le bouton droit sur le module groupes de données Zippés décompressés , puis sélectionnez enregistrer en tant que jeu de données. À ce stade, vous pouvez taper un nom différent.
Cette option est pratique si vous décompressez plusieurs jeux de données à partir d’un seul fichier ZIP.
Exemples
Pour illustrer le fonctionnement de ce module, nous avons créé un exemple de fichier .ZIP contenant quatre fichiers CSV différents. Tous les fichiers ont été enregistrés à partir de Excel.
Nom de fichier | Description |
---|---|
names-uni.csv | Fichier Unicode avec en-têtes de colonnes |
names-utf.csv | Fichier UTF-8 avec en-têtes de colonnes |
nonames-uni.csv | Fichier Unicode sans en-tête de colonne |
nonames-utf8.csv | Fichier UTF-8 sans en-tête de colonne |
L’intégralité du fichier compressé a été téléchargée, puis le module décompresser les jeux de données Zippés a été exécuté quatre fois pour extraire chacun des quatre fichiers, à l’aide des paramètres suivants :
- DataSet à décompresser = names-uni.csv, le fichier comporte une ligne d’en-tête = true
- DataSet à décompresser = names-utf8.csv, le fichier comporte une ligne d’en-tête = true
- DataSet à décompresser = nonames-uni.csv, le fichier contient une ligne d’en-tête = false
- DataSet à décompresser = nonames-utf8.csv, le fichier contient une ligne d’en-tête = false
Les résultats étaient les mêmes que prévu :
Nom de fichier | résultat Télécharger |
---|---|
names-uni.csv | Erreur 0049 : erreur lors de l’analyse du fichier. Le fichier n’est pas encodé au format Unicode (UTF-8) |
names-utf8.csv | Opération réussie. Utilise les noms de colonnes d’origine du fichier source. |
nonames-uni.csv | Erreur 0049 : erreur lors de l’analyse du fichier. Le fichier n’est pas encodé au format Unicode (UTF-8) |
nonames-utf8.csv | Opération réussie. Noms de colonne col1, col2,... Coln est ajouté automatiquement au jeu de données. |
Notes
Si vous utilisez l’option, le fichier comporte une ligne d’en-tête = true et le fichier source n’a en fait pas d’en-tête de colonne, la première ligne de données est utilisée comme en-tête de colonne.
Notes techniques
Vous ne pouvez pas utiliser ce module pour décompresser des packages R Zippés dans votre espace de travail. Les packages R doivent être téléchargés et utilisés comme fichiers compressés.
Pour plus d’informations sur l’utilisation des packages R compressés, consultez exécuter un script r.
Notes
Vous ne vous inquiétez pas de la différence entre UTF-8 et Unicode ? Consultez cet article de Wikipédia : qu’est-ce qu’UTF-8
Paramètres du module
Nom | Plage | Type | Default | Description |
---|---|---|---|---|
Format de fichier de compression | Zip Gzip |
règle de compression | Zip | Algorithme de compression utilisé pour compresser ou développer le fichier. |
Jeu de données à décompresser | Quelconque | String | aucun | nom du jeu de données à inscrire auprès d’Azure ML Studio (classic). Si le nom d’un jeu de données n’est pas spécifié, le nom est obtenu à partir du nom de fichier dans le fichier zippé. |
Format de fichier du jeu de données | CSV TSV ARFF SVMLIGHT |
Format de fichier | CSV | Format de fichier du jeu de données dans le fichier zippé |
Le fichier comporte une ligne d'en-tête | TRUE/FALSE | Boolean | False | Affectez la valeur true uniquement si le fichier CSV/TSV contient une ligne d’en-tête |
Entrées attendues
Nom | Type | Description |
---|---|---|
Dataset | Zip | Fichier zippé contenant les jeux de données |
Output
Nom | Type | Description |
---|---|---|
Jeu de données de résultats | Table de données | Jeu de données de sortie |