Kopírování dat z Google BigQuery pomocí služby Azure Data Factory nebo Synapse Analytics (starší verze)
PLATÍ PRO: Azure Data Factory
Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Tento článek popisuje, jak pomocí aktivity kopírování v kanálech Azure Data Factory a Synapse Analytics kopírovat data z Google BigQuery. Vychází z článku s přehledem aktivity kopírování, který představuje obecný přehled aktivity kopírování.
Důležité
Konektor Google BigQuery V2 poskytuje vylepšenou nativní podporu Google BigQuery. Pokud ve svém řešení používáte konektor Google BigQuery V1, upgradujte prosím konektor Google BigQuery, protože verze 1 je na konci fáze podpory. Podrobnosti o rozdílu mezi V2 a V1 najdete v této části .
Podporované funkce
Tento konektor Google BigQuery je podporovaný pro následující funkce:
Podporované funkce | IR |
---|---|
aktivita Copy (zdroj/-) | (1) (2) |
Aktivita Lookup | (1) (2) |
(1) Prostředí Azure Integration Runtime (2) Místní prostředí Integration Runtime
Seznam úložišť dat podporovaných jako zdroje nebo jímky aktivitou kopírování najdete v tabulce Podporované úložiště dat.
Služba poskytuje integrovaný ovladač, který umožňuje připojení. Proto pro použití tohoto konektoru nemusíte ručně instalovat ovladač.
Konektor podporuje verze Windows v tomto článku.
Poznámka:
Tento konektor Google BigQuery je založený na rozhraních API BigQuery. Mějte na paměti, že BigQuery omezuje maximální rychlost příchozích požadavků a vynucuje příslušné kvóty na základě jednotlivých projektů, projděte si kvóty a limity – požadavky rozhraní API. Ujistěte se, že neaktivujete příliš mnoho souběžných požadavků na účet.
Požadavky
Abyste mohli používat tento konektor, potřebujete následující minimální oprávnění Google BigQuery:
- bigquery.connections.*
- bigquery.datasets.*
- bigquery.jobs.*
- bigquery.readsessions.*
- bigquery.routines.*
- bigquery.tables.*
Začínáme
K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:
- Nástroj pro kopírování dat
- Azure Portal
- Sada .NET SDK
- Sada Python SDK
- Azure PowerShell
- Rozhraní REST API
- Šablona Azure Resource Manageru
Vytvoření propojené služby s Google BigQuery pomocí uživatelského rozhraní
Pomocí následujícího postupu vytvořte propojenou službu s Google BigQuery v uživatelském rozhraní webu Azure Portal.
Přejděte na kartu Správa v pracovním prostoru Azure Data Factory nebo Synapse a vyberte Propojené služby a pak klikněte na Nový:
Vyhledejte Google a vyberte konektor Google BigQuery.
Nakonfigurujte podrobnosti o službě, otestujte připojení a vytvořte novou propojenou službu.
Podrobnosti konfigurace konektoru
Následující části obsahují podrobnosti o vlastnostech, které slouží k definování entit specifických pro konektor Google BigQuery.
Vlastnosti propojené služby
Pro propojenou službu Google BigQuery se podporují následující vlastnosti.
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu musí být nastavena na GoogleBigQuery. | Ano |
projekt | ID projektu výchozího projektu BigQuery, na který se má dotazovat. | Ano |
additionalProjects | Čárkami oddělený seznam ID projektů veřejných projektů BigQuery pro přístup. | No |
requestGoogleDriveScope | Zda požádat o přístup k Disku Google. Povolení přístupu k Disku Google umožňuje podporu federovaných tabulek, které kombinují data BigQuery s daty z Disku Google. Výchozí hodnota je false. | No |
authenticationType | Mechanismus ověřování OAuth 2.0 používaný k ověřování. ServiceAuthentication je možné použít pouze v místním prostředí Integration Runtime. Povolené hodnoty jsou UserAuthentication a ServiceAuthentication. Další vlastnosti a ukázky JSON pro tyto typy ověřování najdete v částech pod touto tabulkou. |
Ano |
Použití ověřování uživatelů
Nastavte vlastnost authenticationType na UserAuthentication a zadejte následující vlastnosti spolu s obecnými vlastnostmi popsanými v předchozí části:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
clientId | ID aplikace použité k vygenerování obnovovacího tokenu | Ano |
clientSecret | Tajný kód aplikace použité k vygenerování obnovovacího tokenu. Označte toto pole jako securestring, abyste ho mohli bezpečně uložit, nebo odkazovat na tajný klíč uložený ve službě Azure Key Vault. | Ano |
refreshToken | Obnovovací token získaný googlem slouží k autorizaci přístupu k BigQuery. Zjistěte, jak získat přístupové tokeny OAuth 2.0 a tento blog komunity. Označte toto pole jako securestring, abyste ho mohli bezpečně uložit, nebo odkazovat na tajný klíč uložený ve službě Azure Key Vault. | Ano |
Minimální rozsah potřebný k získání obnovovacího tokenu OAuth 2.0 je https://www.googleapis.com/auth/bigquery.readonly
. Pokud plánujete spustit dotaz, který by mohl vracet velké výsledky, může se vyžadovat jiný obor. Další informace najdete v tomto článku.
Příklad:
{
"name": "GoogleBigQueryLinkedService",
"properties": {
"type": "GoogleBigQuery",
"typeProperties": {
"project" : "<project ID>",
"additionalProjects" : "<additional project IDs>",
"requestGoogleDriveScope" : true,
"authenticationType" : "UserAuthentication",
"clientId": "<id of the application used to generate the refresh token>",
"clientSecret": {
"type": "SecureString",
"value":"<secret of the application used to generate the refresh token>"
},
"refreshToken": {
"type": "SecureString",
"value": "<refresh token>"
}
}
}
}
Použití ověřování služby
Nastavte vlastnost authenticationType na ServiceAuthentication a zadejte následující vlastnosti spolu s obecnými vlastnostmi popsanými v předchozí části. Tento typ ověřování lze použít pouze v místním prostředí Integration Runtime.
Vlastnost | Popis | Povinní účastníci |
---|---|---|
ID e-mailu účtu služby, které se používá pro ServiceAuthentication. Dá se použít jenom v místním prostředí Integration Runtime. | No | |
keyFilePath | Úplná cesta k .json souboru klíče, který se používá k ověření e-mailové adresy účtu služby. |
Ano |
trustedCertPath | Úplná cesta k souboru .pem, který obsahuje důvěryhodné certifikáty certifikační autority sloužící k ověření serveru při připojení přes protokol TLS. Tuto vlastnost lze nastavit pouze v případě, že používáte protokol TLS v místním prostředí Integration Runtime. Výchozí hodnota je soubor cacerts.pem nainstalovaný s prostředím Integration Runtime. | No |
useSystemTrustStore | Určuje, jestli se má použít certifikát certifikační autority z úložiště důvěryhodnosti systému nebo ze zadaného souboru .pem. Výchozí hodnota je false. | No |
Poznámka:
Konektor už nepodporuje soubory klíčů P12. Pokud se spoléháte na účty služeb, doporučujeme místo toho použít soubory klíčů JSON. Vlastnost P12CustomPwd použitá pro podporu souboru klíče P12 byla také zastaralá. Další informace najdete v tomto článku.
Příklad:
{
"name": "GoogleBigQueryLinkedService",
"properties": {
"type": "GoogleBigQuery",
"typeProperties": {
"project" : "<project id>",
"requestGoogleDriveScope" : true,
"authenticationType" : "ServiceAuthentication",
"email": "<email>",
"keyFilePath": "<.json key path on the IR machine>"
},
"connectVia": {
"referenceName": "<name of Self-hosted Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Vlastnosti datové sady
Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku Datové sady . Tato část obsahuje seznam vlastností podporovaných datovou sadou Google BigQuery.
Pokud chcete kopírovat data z Google BigQuery, nastavte vlastnost typu datové sady na GoogleBigQueryObject. Podporují se následující vlastnosti:
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu datové sady musí být nastavená na: GoogleBigQueryObject. | Ano |
datová sada | Název datové sady Google BigQuery | Ne (pokud je zadán dotaz ve zdroji aktivity) |
table | Název tabulky. | Ne (pokud je zadán dotaz ve zdroji aktivity) |
tableName | Název tabulky. Tato vlastnost je podporována pro zpětnou kompatibilitu. Pro nové úlohy použijte dataset a table . |
Ne (pokud je zadán dotaz ve zdroji aktivity) |
Příklad
{
"name": "GoogleBigQueryDataset",
"properties": {
"type": "GoogleBigQueryObject",
"typeProperties": {},
"schema": [],
"linkedServiceName": {
"referenceName": "<GoogleBigQuery linked service name>",
"type": "LinkedServiceReference"
}
}
}
Vlastnosti aktivity kopírování
Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných typem zdroje Google BigQuery.
GoogleBigQuerySource jako typ zdroje
Pokud chcete kopírovat data z Google BigQuery, nastavte zdrojový typ aktivity kopírování na GoogleBigQuerySource. Ve zdrojové části aktivity kopírování jsou podporovány následující vlastnosti.
Vlastnost | Popis | Povinní účastníci |
---|---|---|
type | Vlastnost typu zdroje aktivity kopírování musí být nastavena na GoogleBigQuerySource. | Ano |
query | Ke čtení dat použijte vlastní dotaz SQL. Příklad: "SELECT * FROM MyTable" . |
Ne (pokud je v datové sadě zadán název tabulky) |
Příklad:
"activities":[
{
"name": "CopyFromGoogleBigQuery",
"type": "Copy",
"inputs": [
{
"referenceName": "<GoogleBigQuery input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "GoogleBigQuerySource",
"query": "SELECT * FROM MyTable"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Vlastnosti aktivity vyhledávání
Podrobnosti o vlastnostech najdete v aktivitě Vyhledávání.
Související obsah
Seznam úložišť dat podporovaných jako zdroje a jímky aktivitou kopírování najdete v tématu Podporované úložiště dat.