Kopírování dat z webové tabulky pomocí služby Azure Data Factory nebo Synapse Analytics
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Tento článek popisuje, jak pomocí aktivity kopírování v kanálu Azure Data Factory nebo Synapse Analytics kopírovat data z databáze webové tabulky. Vychází z článku s přehledem aktivity kopírování, který představuje obecný přehled aktivity kopírování.
Rozdíl mezi tímto konektorem webové tabulky, konektorem REST a konektorem HTTP jsou:
- Konektor webové tabulky extrahuje obsah tabulky z webové stránky HTML.
- Konektor REST konkrétně podporuje kopírování dat z rozhraní RESTful API.
- Konektor HTTP je obecný k načtení dat z libovolného koncového bodu HTTP, například ke stažení souboru.
Podporované funkce
Tento konektor webové tabulky je podporovaný pro následující funkce:
Podporované funkce | IR |
---|---|
aktivita Copy (zdroj/-) | (2) |
Aktivita Lookup | (2) |
(1) Prostředí Azure Integration Runtime (2) Místní prostředí Integration Runtime
Seznam úložišť dat podporovaných jako zdroje nebo jímky najdete v tabulce Podporované úložiště dat.
Konkrétně tento konektor webové tabulky podporuje extrahování obsahu tabulky ze stránky HTML.
Požadavky
Pokud chcete použít tento konektor webové tabulky, musíte nastavit místní prostředí Integration Runtime. Podrobnosti najdete v článku o místním prostředí Integration Runtime .
Začínáme
K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:
- Nástroj pro kopírování dat
- Azure Portal
- Sada .NET SDK
- Sada Python SDK
- Azure PowerShell
- Rozhraní REST API
- Šablona Azure Resource Manageru
Vytvoření propojené služby s webovou tabulkou pomocí uživatelského rozhraní
Pomocí následujícího postupu vytvořte propojenou službu s webovou tabulkou v uživatelském rozhraní webu Azure Portal.
Přejděte na kartu Správa v pracovním prostoru Azure Data Factory nebo Synapse a vyberte Propojené služby a pak klikněte na Nový:
Vyhledejte web a vyberte konektor webové tabulky.
Nakonfigurujte podrobnosti o službě, otestujte připojení a vytvořte novou propojenou službu.
Podrobnosti konfigurace konektoru
Následující části obsahují podrobnosti o vlastnostech, které slouží k definování entit služby Data Factory specifických pro konektor webové tabulky.
Vlastnosti propojené služby
Pro propojenou službu webové tabulky jsou podporovány následující vlastnosti:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu musí být nastavena na: Web. | Ano |
url | Adresa URL zdroje webu | Ano |
authenticationType | Povolená hodnota je: Anonymní. | Ano |
connectVia | Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Vyžaduje se místní prostředí Integration Runtime, jak je uvedeno v požadavcích. | Ano |
Příklad:
{
"name": "WebLinkedService",
"properties": {
"type": "Web",
"typeProperties": {
"url" : "https://en.wikipedia.org/wiki/",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Vlastnosti datové sady
Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku o datových sadách . Tato část obsahuje seznam vlastností podporovaných datovou sadou webových tabulek.
Pokud chcete kopírovat data z webové tabulky, nastavte vlastnost typu datové sady na WebTable. Podporují se následující vlastnosti:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu datové sady musí být nastavená na: Webová tabulka. | Ano |
path | Relativní adresa URL k prostředku, který obsahuje tabulku. | Ne. Pokud není zadána cesta, použije se pouze adresa URL zadaná v definici propojené služby. |
index | Index tabulky v prostředku. Postup získání indexu tabulky na stránce HTML najdete v části Získání indexu tabulky na stránce HTML. | Ano |
Příklad:
{
"name": "WebTableInput",
"properties": {
"type": "WebTable",
"typeProperties": {
"index": 1,
"path": "AFI's_100_Years...100_Movies"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Web linked service name>",
"type": "LinkedServiceReference"
}
}
}
Vlastnosti aktivity kopírování
Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem webových tabulek.
Webová tabulka jako zdroj
Pokud chcete kopírovat data z webové tabulky, nastavte zdrojový typ aktivity kopírování na WebSource, nejsou podporovány žádné další vlastnosti.
Příklad:
"activities":[
{
"name": "CopyFromWebTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Web table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "WebSource"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Získání indexu tabulky na stránce HTML
Pokud chcete získat index tabulky, kterou potřebujete nakonfigurovat ve vlastnostech datové sady, můžete jako nástroj použít například Excel 2016:
Spusťte Excel 2016 a přepněte na kartu Data .
Klepněte na tlačítko Nový dotaz na panelu nástrojů, přejděte na příkaz Z jiných zdrojů a klepněte na příkaz Z webu.
V dialogovém okně Z webu zadejte adresu URL , kterou byste použili ve formátu JSON propojené služby (například: https://en.wikipedia.org/wiki/) spolu s cestou, kterou byste zadali pro datovou sadu (například: AFI%27s_100_Years... 100_Movies) a klepněte na tlačítko OK.
Adresa URL použitá v tomto příkladu: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies
Pokud se zobrazí dialogové okno webového obsahu accessu, vyberte správnou adresu URL, ověřování a klikněte na Připojit.
Kliknutím na položku tabulky ve stromovém zobrazení zobrazíte obsah z tabulky a potom kliknete na tlačítko Upravit v dolní části.
V okně Editor Power Query klikněte na tlačítko Rozšířený editor na panelu nástrojů.
V dialogovém okně Rozšířený editor je číslo vedle položky Zdroj indexem.
Pokud používáte Excel 2013, získejte index pomocí Microsoft Power Query pro Excel . Podrobnosti najdete v článku o připojení k webové stránce. Postup je podobný, pokud používáte Microsoft Power BI for Desktop.
Vlastnosti aktivity vyhledávání
Podrobnosti o vlastnostech najdete v aktivitě Vyhledávání.
Související obsah
Seznam úložišť dat podporovaných jako zdroje a jímky aktivitou kopírování najdete v podporovaných úložištích dat.