Kopiera masskopiering från en databas till Azure Data Explorer med hjälp av mallen Azure Data Factory

Artikel
12/01/2023

Azure Data Explorer är en snabb, fullständigt hanterad dataanalystjänst. Den erbjuder realtidsanalys på stora mängder data som strömmas från många källor, till exempel program, webbplatser och IoT-enheter.

Om du vill kopiera data från en databas i Oracle Server, Netezza, Teradata eller SQL Server till Azure Data Explorer måste du läsa in stora mängder data från flera tabeller. Vanligtvis måste data partitioneras i varje tabell så att du kan läsa in rader med flera trådar parallellt från en enda tabell. I den här artikeln beskrivs en mall som ska användas i dessa scenarier.

Azure Data Factory mallar är fördefinierade Data Factory-pipelines. Dessa mallar kan hjälpa dig att komma igång snabbt med Data Factory och minska utvecklingstiden för dataintegreringsprojekt.

Du skapar mallen Masskopiering från databas till Azure Data Explorer med hjälp av aktiviteterna Lookup och ForEach. För snabbare datakopiering kan du använda mallen för att skapa många pipelines per databas eller per tabell.

Viktigt

Se till att använda det verktyg som är lämpligt för den mängd data som du vill kopiera.

Använd mallen Masskopiering från databas till Azure Data Explorer för att kopiera stora mängder data från databaser som SQL Server och Google BigQuery till Azure Data Explorer.
Använd verktyget Data Factory Copy Data för att kopiera några tabeller med små eller måttliga mängder data till Azure Data Explorer.

Förutsättningar

En Azure-prenumeration. Skapa ett kostnadsfritt Azure-konto.
Ett Azure Data Explorer-kluster och en databas. Skapa ett kluster och en databas.
En datafabrik. Skapa en datafabrik.
En datakälla.

Skapa ControlTableDataset

ControlTableDataset anger vilka data som ska kopieras från källan till målet i pipelinen. Antalet rader anger det totala antalet pipelines som behövs för att kopiera data. Du bör definiera ControlTableDataset som en del av källdatabasen.

Ett exempel på SQL Server källtabellformat visas i följande kod:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

Kodelementen beskrivs i följande tabell:

Egenskap	Beskrivning	Exempel
Partitionid	Kopieringsordningen	1
SourceQuery	Frågan som anger vilka data som ska kopieras under pipelinekörningen	`select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>`
ADXTableName	Måltabellens namn	MyAdxTable

Om din ControlTableDataset har ett annat format skapar du en jämförbar ControlTableDataset för ditt format.

Använda mallen Masskopiering från databas till Azure Data Explorer

I fönstret Kom igång väljer du Skapa pipeline från mall för att öppna fönstret Mallgalleri .
Välj mallen Masskopiering från databas till Azure Data Explorer.
I fönstret Masskopiering från databas till Azure Data Explorer anger du dina datauppsättningar under Användarindata genom att göra följande:

a. I listrutan ControlTableDataset väljer du den länkade tjänsten till kontrolltabellen som anger vilka data som kopieras från källan till målet och var de placeras i målet.

b. I listrutan SourceDataset väljer du den länkade tjänsten till källdatabasen.

c. I listrutan AzureDataExplorerTable väljer du tabellen Azure Data Explorer. Om datauppsättningen inte finns skapar du den Länkade Azure-Data Explorer-tjänsten för att lägga till datauppsättningen.

d. Välj Använd den här mallen.
Välj ett område på arbetsytan, utanför aktiviteterna, för att komma åt mallpipelinen. Välj fliken Parametrar för att ange parametrarna för tabellen, inklusive Namn (kontrolltabellnamn) och Standardvärde (kolumnnamn).
Under Uppslag väljer du GetPartitionList för att visa standardinställningarna. Frågan skapas automatiskt.
Välj kommandoaktiviteten ForEachPartition, välj fliken Inställningar och gör sedan följande:

a. I rutan Antal batchar anger du ett tal mellan 1 och 50. Det här valet avgör antalet pipelines som körs parallellt tills antalet ControlTableDataset-rader har nåtts .

b. Om du vill se till att pipeline-batcharna körs parallellt markerar du inte kryssrutan Sekventiell .

Tips

Det bästa sättet är att köra många pipelines parallellt så att dina data kan kopieras snabbare. Om du vill öka effektiviteten partitionerar du data i källtabellen och allokerar en partition per pipeline enligt datum och tabell.
Välj Verifiera alla för att verifiera Azure Data Factory pipeline och visa sedan resultatet i fönstret Utdata för pipelineverifiering.
Om det behövs väljer du Felsök och sedan Lägg till utlösare för att köra pipelinen.