Создайте наборы данных.

Завершено

Набор данных — это именованное представление данных, которое указывает данные, необходимые для использования в действиях, разделяя их на входные и выходные. Наборы данных представляют данные в разных хранилищах, например в таблицах, файлах, папках и документах. Например, набор данных больших двоичных объектов Azure указывает контейнер больших двоичных объектов и папку в хранилище BLOB-объектов, из которой действие должно считывать данные.

Набор данных в Фабрике данных можно определить как объект внутри действия копирования данных, как отдельный объект или программно в формате JSON следующим образом.

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: AzureBlob, AzureSql etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema": [
            {
                "name": "<Name of the column>",
                "type": "<Name of the type>"
            }
        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

В следующей таблице описаны свойства приведенного выше объекта JSON.

Свойство Описание: Обязательное поле
name Имя набора данных. Да
type Тип набора данных. Укажите один из типов, которые поддерживает фабрика данных (например: AzureBlob, AzureSqlTable). Да
Схема Схема набора данных. No
typeProperties Свойства каждого типа отличаются (например, свойства большого двоичного объекта Azure и таблицы SQL Azure). Да

Пример набора данных

Большой двоичный объект Azure

На этом шаге вы создадите два набора данных: InputDataset и OutputDataset. Эти наборы данных имеют тип Binary. Они ссылаются на связанную службу хранилища Azure с именем AzureStorageLinkedService. Входной набор данных представляет исходные данные в папке входных данных. В определении входного набора данных укажите контейнер больших двоичных объектов (adftutorial), папку (input) и файл (emp.txt), определяющие расположение исходных данных. Выходной набор данных представляет данные, которые копируются в место назначения. В определении выходного набора данных укажите контейнер больших двоичных объектов (adftutorial), папку (output) и файл, определяющие расположение копируемых данных.

  1. На рабочем столе создайте папку с именем ADFv2QuickStartPSH на диске C.

  2. Создайте файл JSON с именем InputDataset.json в папке C:\ADFv2QuickStartPSH со следующим содержимым:

      {
          "name": "InputDataset",
          "properties": {
              "linkedServiceName": {
                  "referenceName": "AzureStorageLinkedService",
                  "type": "LinkedServiceReference"
              },
              "annotations": [],
              "type": "Binary",
              "typeProperties": {
                  "location": {
                      "type": "AzureBlobStorageLocation",
                      "fileName": "emp.txt",
                      "folderPath": "input",
                      "container": "adftutorial"
                  }
              }
          }
      }
    
      ```
    
    
  3. Чтобы создать набор данных: InputDataset, выполните командлет Set-AzDataFactoryV2Dataset.

    Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName `
        -ResourceGroupName $ResGrp.ResourceGroupName -Name "InputDataset" `
        -DefinitionFile ".\InputDataset.json"
    

    Пример выходных данных:

    DatasetName       : InputDataset
    ResourceGroupName : <resourceGroupname>
    DataFactoryName   : <dataFactoryName>
    Structure         :
    Properties        : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset
    
  4. Повторите эти шаги, чтобы создать выходной набор данных. Создайте файл JSON с именем OutputDataset.json в папке C:\ADFv2QuickStartPSH со следующим содержимым:

    {
        "name": "OutputDataset",
        "properties": {
            "linkedServiceName": {
                "referenceName": "AzureStorageLinkedService",
                "type": "LinkedServiceReference"
            },
            "annotations": [],
            "type": "Binary",
            "typeProperties": {
                "location": {
                    "type": "AzureBlobStorageLocation",
                    "folderPath": "output",
                    "container": "adftutorial"
                }
            }
        }
    }
    
  5. Выполните командлет Set-AzDataFactoryV2Dataset, чтобы создать набор данных OutDataset.

    Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName `
        -ResourceGroupName $ResGrp.ResourceGroupName -Name "OutputDataset" `
        -DefinitionFile ".\OutputDataset.json"
    

    Пример выходных данных:

    DatasetName       : OutputDataset
    ResourceGroupName : <resourceGroupname>
    DataFactoryName   : <dataFactoryName>
    Structure         :
    Properties        : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset