Создайте наборы данных.
Набор данных — это именованное представление данных, которое указывает данные, необходимые для использования в действиях, разделяя их на входные и выходные. Наборы данных представляют данные в разных хранилищах, например в таблицах, файлах, папках и документах. Например, набор данных больших двоичных объектов Azure указывает контейнер больших двоичных объектов и папку в хранилище BLOB-объектов, из которой действие должно считывать данные.
Набор данных в Фабрике данных можно определить как объект внутри действия копирования данных, как отдельный объект или программно в формате JSON следующим образом.
{
"name": "<name of dataset>",
"properties": {
"type": "<type of dataset: AzureBlob, AzureSql etc...>",
"linkedServiceName": {
"referenceName": "<name of linked service>",
"type": "LinkedServiceReference",
},
"schema": [
{
"name": "<Name of the column>",
"type": "<Name of the type>"
}
],
"typeProperties": {
"<type specific property>": "<value>",
"<type specific property 2>": "<value 2>",
}
}
}
В следующей таблице описаны свойства приведенного выше объекта JSON.
Свойство | Описание: | Обязательное поле |
---|---|---|
name | Имя набора данных. | Да |
type | Тип набора данных. Укажите один из типов, которые поддерживает фабрика данных (например: AzureBlob, AzureSqlTable). | Да |
Схема | Схема набора данных. | No |
typeProperties | Свойства каждого типа отличаются (например, свойства большого двоичного объекта Azure и таблицы SQL Azure). | Да |
Пример набора данных
Большой двоичный объект Azure
На этом шаге вы создадите два набора данных: InputDataset и OutputDataset. Эти наборы данных имеют тип Binary. Они ссылаются на связанную службу хранилища Azure с именем AzureStorageLinkedService. Входной набор данных представляет исходные данные в папке входных данных. В определении входного набора данных укажите контейнер больших двоичных объектов (adftutorial), папку (input) и файл (emp.txt), определяющие расположение исходных данных. Выходной набор данных представляет данные, которые копируются в место назначения. В определении выходного набора данных укажите контейнер больших двоичных объектов (adftutorial), папку (output) и файл, определяющие расположение копируемых данных.
На рабочем столе создайте папку с именем ADFv2QuickStartPSH на диске C.
Создайте файл JSON с именем InputDataset.json в папке C:\ADFv2QuickStartPSH со следующим содержимым:
{ "name": "InputDataset", "properties": { "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "annotations": [], "type": "Binary", "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "fileName": "emp.txt", "folderPath": "input", "container": "adftutorial" } } } } ```
Чтобы создать набор данных: InputDataset, выполните командлет Set-AzDataFactoryV2Dataset.
Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName ` -ResourceGroupName $ResGrp.ResourceGroupName -Name "InputDataset" ` -DefinitionFile ".\InputDataset.json"
Пример выходных данных:
DatasetName : InputDataset ResourceGroupName : <resourceGroupname> DataFactoryName : <dataFactoryName> Structure : Properties : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset
Повторите эти шаги, чтобы создать выходной набор данных. Создайте файл JSON с именем OutputDataset.json в папке C:\ADFv2QuickStartPSH со следующим содержимым:
{ "name": "OutputDataset", "properties": { "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "annotations": [], "type": "Binary", "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "folderPath": "output", "container": "adftutorial" } } } }
Выполните командлет Set-AzDataFactoryV2Dataset, чтобы создать набор данных OutDataset.
Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName ` -ResourceGroupName $ResGrp.ResourceGroupName -Name "OutputDataset" ` -DefinitionFile ".\OutputDataset.json"
Пример выходных данных:
DatasetName : OutputDataset ResourceGroupName : <resourceGroupname> DataFactoryName : <dataFactoryName> Structure : Properties : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset