Копирование данных из веб-таблицы с помощью Фабрики данных Azure или Synapse Analytics
ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics
Совет
Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !
В этой статье описывается, как с помощью действия копирования в конвейере Фабрики данных Azure или Azure Synapse Analytics копировать данные из базы данных веб-таблиц. Это продолжение статьи об обзоре действия копирования, в которой представлены общие сведения о действии копирования.
Далее приводятся различия между соединителем веб-таблиц, соединителем REST и соединителем HTTP.
- Соединитель веб-таблиц извлекает содержимое таблицы со страницы HTML.
- Соединитель REST предназначен для поддержки копирования данных из RESTful API.
- Соединитель HTTP применяется для извлечения данных из любой конечной точки HTTP, например для скачивания файла.
Поддерживаемые возможности
Соединитель веб-таблиц поддерживается для перечисленных ниже возможностей.
Поддерживаемые возможности | IR |
---|---|
Действие копирования (источник/-) | (2) |
Действие поиска | (2) |
① Среда выполнения интеграции Azure ② Локальная среда выполнения интеграции
Список хранилищ данных, которые поддерживаются в качестве источников/приемников, см. в таблице Поддерживаемые хранилища данных.
Сейчас этот соединитель веб-таблиц поддерживает только извлечение содержимого таблицы из HTML-страницы.
Необходимые компоненты
Для использования этого соединителя веб-таблиц нужно настроить локальную среду выполнения интеграции. Дополнительные сведения см. в статье Создание и настройка локальной среды выполнения интеграции.
Начало работы
Чтобы выполнить действие копирования с конвейером, можно воспользоваться одним из приведенных ниже средств или пакетов SDK:
- средство копирования данных;
- Портал Azure
- Пакет SDK для .NET
- Пакет SDK для Python
- Azure PowerShell
- The REST API
- шаблон Azure Resource Manager.
Создание связанной службы для Web Table с помощью пользовательского интерфейса
Выполните следующие действия, чтобы создать связанную службу для Web Table с помощью пользовательского интерфейса на портале Azure.
Перейдите на вкладку "Управление" в рабочей области Фабрики данных Azure или Synapse и выберите "Связанные службы", после чего нажмите "Создать":
Выполните поиск по запросу Web и выберите соединитель Web Table.
Настройте сведения о службе, проверьте подключение и создайте связанную службу.
Сведения о конфигурации соединителя
Следующие разделы содержат сведения о свойствах, которые используются для определения сущностей фабрики данных, относящихся к соединителю веб-таблиц.
Свойства связанной службы
Для связанной службы веб-таблиц поддерживаются следующие свойства:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Для свойства type необходимо задать значение Web | Да |
URL-адрес | URL-адрес источника Web | Да |
authenticationType | Допустимое значение: Anonymous. | Да |
connectVia | Среда выполнения интеграции, используемая для подключения к хранилищу данных. Требуется локальная среда IR, как упоминалось в разделе Предварительные требования. | Да |
Пример:
{
"name": "WebLinkedService",
"properties": {
"type": "Web",
"typeProperties": {
"url" : "https://en.wikipedia.org/wiki/",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Свойства набора данных
Полный список разделов и свойств, доступных для определения наборов данных, см. в статье о наборах данных. Этот раздел содержит список свойств, поддерживаемых набором данных веб-таблиц.
Чтобы скопировать данные из веб-таблиц, задайте для свойства type набора данных значение WebTable. Поддерживаются следующие свойства:
Свойство | Описание: | Обязательное поле |
---|---|---|
type | Свойство type для набора данных должно иметь значение WebTable. | Да |
path | Относительный URL-адрес ресурса, который содержит таблицу. | № Если путь не задан, используется только URL-адрес, указанный в определении связанной службы. |
index | Индекс таблицы в ресурсе. Дополнительные сведения см. в разделе Получение индекса таблицы на HTML-странице. | Да |
Пример:
{
"name": "WebTableInput",
"properties": {
"type": "WebTable",
"typeProperties": {
"index": 1,
"path": "AFI's_100_Years...100_Movies"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Web linked service name>",
"type": "LinkedServiceReference"
}
}
}
Свойства действия копирования
Полный список разделов и свойств, используемых для определения действий, см. в статье Конвейеры и действия в фабрике данных Azure. Этот раздел содержит список свойств, поддерживаемых веб-таблицами в качестве источника.
Веб-таблицы в качестве источника
Чтобы скопировать данные из веб-таблицы, задайте тип источника WebSource в действии копирования, дополнительные свойства не поддерживаются.
Пример:
"activities":[
{
"name": "CopyFromWebTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Web table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "WebSource"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Получение индекса таблицы на HTML-странице
Для получения индекса таблицы, которую необходимо настроить в свойствах набора данных, можно использовать, например, Excel 2016:
Запустите Excel 2016 и перейдите на вкладку Данные.
На панели инструментов щелкните Создать запрос, выберите Из других источников и щелкните Из Интернета.
В диалоговом окне Из Интернета введите URL-адрес, который будет использоваться в JSON связанной службы (например, https://en.wikipedia.org/wiki/), вместе с указанным для набора данных путем (например, AFI%27s_100_Years…100_Movies), а затем нажмите кнопку ОК.
В этом примере используется URL-адрес https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies.
Если отображается диалоговое окно Доступ к веб-содержимому, выберите соответствующий URL-адрес и тип аутентификации, а затем нажмите кнопку Подключить.
В представлении дерева щелкните элемент table, чтобы просмотреть содержимое таблицы, а затем в нижней части экрана нажмите кнопку Изменить.
В окне Редактор запросов на панели инструментов нажмите кнопку Расширенный редактор.
В диалоговом окне "Расширенный редактор" число, отображаемое рядом с полем "Источник", является индексом.
Если вы работаете с Excel 2013, используйте Microsoft Power Query для Excel, чтобы получить индекс. Дополнительные сведения см. в статье Подключение к веб-странице. Точно так же можно использовать Microsoft Power BI Desktop.
Свойства действия поиска
Подробные сведения об этих свойствах см. в разделе Действие поиска.
Связанный контент
Список хранилищ данных, которые поддерживаются в качестве источников и приемников для действия Copy, приведен в таблице Поддерживаемые хранилища данных и форматы.