使用 Azure Data Factory 或 Synapse Analytics 從 Web 資料表複製資料
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用!
本文概述如何使用 Azure Data Factory 或 Synapse Analytics 管線中的複製活動,從 Web 資料表複製資料。 本文是根據複製活動概觀一文,該文提供複製活動的一般概觀。
此 Web 資料表連接器、REST 連接器和 HTTP 連接器之間的差異如下:
- Web 資料表連接器從 HTML 網頁擷取資料表內容。
- REST 連接器專門支援從 RESTful API 複製資料。
- HTTP 連接器一般用來從任何 HTTP 端點擷取資料,例如下載檔案。
支援的功能
此 Web 資料表連接器支援下列功能:
支援的功能 | IR |
---|---|
複製活動 (來源/-) | (2) |
查閱活動 | (2) |
① Azure 整合執行階段 ② 自我裝載整合執行階段
如需支援做為來源/接收器的資料存放區清單,請參閱支援的資料存放區表格。
具體而言,這個 Web 資料表連接器支援從 HTML 頁面擷取資料表內容。
必要條件
若要使用此 Web 資料表連接器,您需要設定「自我裝載 Integration Runtime」。 如需詳細資料,請參閱自我裝載 Integration Runtime 一文。
開始使用
若要透過管線執行複製活動,您可以使用下列其中一個工具或 SDK:
使用 UI 建立連結至 Web 資料表的服務
使用下列步驟,在 Azure 入口網站 UI 中建立連結至 Web 資料表的服務。
前往 Azure Data Factory 或 Synapse 工作區的 [管理] 索引標籤,選取 [連結服務],然後按一下 [新增]:
搜尋 Web 並選取 [Web 資料表連接器]。
設定服務詳細資料,測試連線,然後建立新的連結服務。
連接器設定詳細資料
下列各節提供屬性的相關詳細資料,這些屬性是用來定義 Web 資料表連接器專屬的 Data Factory 實體。
連結服務屬性
以下是針對 Web 資料表已連結服務支援的屬性:
屬性 | 描述 | 必要 |
---|---|---|
type | 類型屬性必須設為: Web | Yes |
URL | Web 來源的 URL | Yes |
authenticationType | 允許的值為:Anonymous (匿名)。 | Yes |
connectVia | 用於連線到資料存放區的 Integration Runtime。 如必要條件所述,必須要有一個「自我裝載 Integration Runtime」。 | Yes |
範例:
{
"name": "WebLinkedService",
"properties": {
"type": "Web",
"typeProperties": {
"url" : "https://en.wikipedia.org/wiki/",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
資料集屬性
如需可用來定義資料集的區段和屬性完整清單,請參閱資料集一文。 本節提供 Web 資料表資料集所支援的屬性清單。
若要從 Web 資料表複製資料,請將資料集的類型屬性設定為 WebTable。 以下是支援的屬性:
屬性 | 描述 | 必要 |
---|---|---|
type | 資料集的類型屬性必須設定為:WebTable | Yes |
path | 包含資料表之資源的相對 URL。 | 否。 當路徑未指定時,則只會使用在連結服務定義中指定的 URL。 |
index | 資源中資料表的索引。 如需如何取得 HTML 網頁中資料表索引的步驟,請參閱 取得 HTML 網頁中資料表的索引 一節。 | Yes |
範例:
{
"name": "WebTableInput",
"properties": {
"type": "WebTable",
"typeProperties": {
"index": 1,
"path": "AFI's_100_Years...100_Movies"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Web linked service name>",
"type": "LinkedServiceReference"
}
}
}
複製活動屬性
如需可用來定義活動的區段和屬性完整清單,請參閱管線一文。 本節提供 Web 資料表來源所支援的屬性清單。
Web 資料表作為來源
若要從 Web 資料表複製資料,請將複製活動中的來源類型設定為 WebSource,不支援任何其他屬性。
範例:
"activities":[
{
"name": "CopyFromWebTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Web table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "WebSource"
},
"sink": {
"type": "<sink type>"
}
}
}
]
取得 HTML 網頁中資料表的索引
若要取得您要在資料集屬性中設定的資料表索引,可以使用 Excel 2016 等軟體 (如下所示) 做為工具:
啟動 Excel 2016,然後切換到 [資料] 索引標籤。
按一下工具列上的 [開新查詢]、指向 [從其他來源],然後按一下 [從 Web]。
在 [從 Web] 對話方塊中,輸入您要在連結服務 JSON 中使用的 URL (例如:https://en.wikipedia.org/wiki/),以及您為資料集指定的路徑 (例如:AFI%27s_100_Years...100_Movies),然後按一下 [確定]。
此範例使用的 URL:https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies
當您看到 [存取 Web 內容] 對話方塊時,選取右側的 URL、驗證方式,然後按一下 [連線]。
按一下樹狀檢視中的某個資料表項目來查看資料表內容,然後按一下底部的 [編輯] 按鈕。
在 [查詢編輯器] 視窗中,按一下工具列上的 [進階編輯器] 按鈕。
在 [進階編輯器] 對話方塊中,「Source」旁的數字就是索引。
如果您使用的是 Excel 2013,請使用 Microsoft Power Query for Excel 來取得索引。 如需詳細資訊,請參閱 連線至網頁 一文。 如果您使用 Microsoft Power BI for Desktop,步驟就很類似。
查閱活動屬性
若要了解屬性的詳細資料,請參閱查閱活動。
相關內容
如需複製活動支援作為來源和接收器的資料存放區清單,請參閱支援的資料存放區。