FileDatasetFactory Класс
Содержит методы для создания файлового набора данных для Машинного обучения Azure.
Объект FileDataset создается из метода from_files, определенного в этом классе.
Дополнительные сведения о работе с файловыми наборами данных см. в записной книжке https://aka.ms/filedataset-samplenotebook.
- Наследование
-
builtins.objectFileDatasetFactory
Конструктор
FileDatasetFactory()
Методы
from_files |
Создание объекта FileDataset для представления файловых потоков. |
upload_directory |
Создание набора данных из исходного каталога. |
from_files
Создание объекта FileDataset для представления файловых потоков.
static from_files(path, validate=True, partition_format=None, is_file=False)
Параметры
Имя | Описание |
---|---|
path
Обязательно
|
|
validate
Обязательно
|
Указывает, следует ли проверять возможность загрузки данных из возвращенного набора данных. Значение по умолчанию — True. Для проверки необходимо, чтобы источник данных был доступен из текущего вычисления. |
partition_format
Обязательно
|
Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.jsonl", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01". |
is_file
Обязательно
|
Указывает, все ли входные пути ведут к файлам. По умолчанию обработчик набора данных пытается проверить, ведут ли входные пути к файлам. Установите для этого флага значение True, если все входные пути ведут к файлам, чтобы ускорить создания набора данных. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект FileDataset. |
Комментарии
from_files создает объект класса FileDataset, который определяет операции для загрузки файловых потоков по указанному пути.
Чтобы данные были доступны Машинному обучению Azure, файлы, указанные в path
, должны находиться в Datastore или быть доступны с помощью общедоступных URL-адресов или URL-адресов BLOB-объектов, ADLS 1-го поколения и ADLS 2-го поколения.
Маркер AAD пользователя будет использоваться в записной книжке или локальной программе Python, если он напрямую вызывает одну из следующих функций: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files удостоверение целевого объекта вычислений будет использоваться в заданиях, отправленных Experiment.submit для проверки подлинности доступа к данным. Подробнее: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Создание набора данных из исходного каталога.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Параметры
Имя | Описание |
---|---|
src_dir
Обязательно
|
Локальный каталог для отправки. |
target
Обязательно
|
Обязательный параметр. Путь к хранилищу данных, куда будут отправлены файлы. |
pattern
Обязательно
|
Необязательный параметр. Фильтрует все имена путей, соответствующие заданному шаблону, аналогично пакету стандартных масок Python. Поддерживаются подстановочные знаки "*", "?", а также диапазоны знаков, выраженные с помощью []. |
show_progress
Обязательно
|
Необязательный параметр. Указывает, демонстрировать ли в консоли ход отправки. Значение по умолчанию — True. |
Возвращаемое значение
Тип | Описание |
---|---|
Зарегистрированный набор данных. |