Konfigurer Data Warehouse i en kopiaktivitet
I denne artikel beskrives det, hvordan du bruger kopiaktiviteten i datapipeline til at kopiere data fra og til et data warehouse.
Understøttet konfiguration
Hvis du vil konfigurere hver fane under kopiaktivitet, skal du gå til henholdsvis følgende afsnit.
Generelt
Gå til Generelt for at se konfigurationen af fanen Generelt.
Kilde
Følgende egenskaber understøttes for Data Warehouse som kilde i en kopiaktivitet.
Følgende egenskaber er påkrævet:
Datalagertype: Vælg arbejdsområde.
Datalagertype for arbejdsområde: Vælg Data Warehouse på listen over datalagertyper.
Data Warehouse: Vælg et eksisterende data warehouse fra arbejdsområdet.
Brug forespørgsel: Vælg tabel, forespørgsel eller lagret procedure.
Hvis du vælger Tabel, skal du vælge en eksisterende tabel på tabellisten eller angive et tabelnavn manuelt ved at vælge feltet Rediger .
Hvis du vælger Forespørgsel, skal du bruge den brugerdefinerede SQL-forespørgselseditor til at skrive en SQL-forespørgsel, der henter kildedataene.
Hvis du vælger Lagret procedure, skal du vælge en eksisterende lagret procedure på rullelisten eller angive et gemt procedurenavn som kilde ved at vælge feltet Rediger .
Under Avanceret kan du angive følgende felter:
Timeout for forespørgsel (minutter): Timeout for udførelse af forespørgselskommando med standard 120 minutter. Hvis denne egenskab er angivet, er de tilladte værdier i formatet for et tidsrum, f.eks. "02:00:00" (120 minutter).
Isolationsniveau: Angiv funktionsmåden for transaktionslåsning for SQL-kilden.
Partitionsindstilling: Angiv de indstillinger for datapartitionering, der bruges til at indlæse data fra Data Warehouse. Du kan vælge Ingen eller Dynamisk område.
Hvis du vælger Dynamisk område, er områdepartitionsparameteren(
?AdfDynamicRangePartitionCondition
) nødvendig, når du bruger forespørgslen med parallel aktiveret. Eksempelforespørgsel:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition
.- Navn på partitionskolonne: Angiv navnet på kildekolonnen i typen heltal eller dato/dato/klokkeslæt (
int
,smallint
,bigint
,date
smalldatetime
,datetime
, ,datetime2
ellerdatetimeoffset
), der bruges til områdepartitionering til parallel kopiering. Hvis den ikke er angivet, registreres indekset eller tabellens primære nøgle automatisk og bruges som partitionskolonnen. - Øvre partitionsgrænse: Den maksimale værdi for partitionskolonnen for opdeling af partitionsområdet. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres.
- Nedre grænse for partition: Minimumværdien af partitionskolonnen for opdeling af partitionsområdet. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres.
- Navn på partitionskolonne: Angiv navnet på kildekolonnen i typen heltal eller dato/dato/klokkeslæt (
Flere kolonner: Tilføj flere datakolonner for at gemme kildefilernes relative sti eller statiske værdi. Udtrykket understøttes for sidstnævnte.
Destination
Følgende egenskaber understøttes for Data Warehouse som Destination i en kopiaktivitet.
Følgende egenskaber er påkrævet:
- Datalagertype: Vælg arbejdsområde.
- Datalagertype for arbejdsområde: Vælg Data Warehouse på listen over datalagertyper.
- Data Warehouse: Vælg et eksisterende data warehouse fra arbejdsområdet.
- Tabel: Vælg en eksisterende tabel på tabellisten, eller angiv et tabelnavn som destination.
Under Avanceret kan du angive følgende felter:
Kopiér kommandoindstillinger: Angiv egenskaber for kopieringskommandoer.
Tabelindstillinger: Angiv, om destinationstabellen automatisk skal oprettes, hvis der ikke findes nogen baseret på kildeskemaet. Du kan vælge Ingen eller Opret tabel automatisk.
Forudkopieringsscript: Angiv en SQL-forespørgsel, der skal køres, før du skriver data til Data Warehouse i hver kørsel. Brug denne egenskab til at rydde op i forudindlæste data.
Timeout for skrivning af batch: Ventetiden, før batchindsætningshandlingen afsluttes, før der opstår timeout. De tilladte værdier er i formatet af et tidsrum. Standardværdien er "00:30:00" (30 minutter).
Deaktiver analyse af målepunkter for ydeevne: Tjenesten indsamler målepunkter til optimering af kopiydeevnen og anbefalinger. Hvis du er bekymret for denne funktionsmåde, skal du deaktivere denne funktion.
Direkte kopi
COPY-sætningen er den primære måde at indføde data i warehouse-tabeller på. Kommandoen DATA Warehouse COPY understøtter direkte Azure Blob Storage og Azure Data Lake Storage Gen2 som kildedatalagre. Hvis dine kildedata opfylder de kriterier, der er beskrevet i dette afsnit, skal du bruge kommandoen COPY til at kopiere direkte fra kildedatalageret til Data Warehouse.
Kildedataene og -formatet indeholder følgende typer og godkendelsesmetoder:
Type af understøttet kildedatalager Understøttet format Understøttet kildegodkendelsestype Azure Blob Storage Afgrænset tekst
ParquetAnonym godkendelse
Godkendelse af kontonøgle
Godkendelse af signatur for delt adgangAzure Data Lake Storage Gen2 Afgrænset tekst
ParquetGodkendelse af kontonøgle
Godkendelse af signatur for delt adgangFølgende formatindstillinger kan angives:
- For Parquet: Komprimeringstypen kan være None, snappy eller gzip.
- For afgrænset tekst:
- Rækkeafgrænser: Når du kopierer afgrænset tekst til Data Warehouse via kommandoen direct COPY, skal du angive rækkeafgrænseren eksplicit (\r; \n; eller \r\n). Kun når rækkeafgrænseren i kildefilen er \r\n, fungerer standardværdien (\r, \n eller \r\n). Ellers skal du aktivere midlertidig lagring for dit scenarie.
- Null-værdien er tilbage som standard eller indstillet til en tom streng ("").
- Kodning er tilbage som standard eller indstillet til UTF-8 eller UTF-16.
- Spring linjeantal tilbage som standard eller indstillet til 0.
- Komprimeringstypen kan være None eller gzip.
Hvis din kilde er en mappe, skal du markere afkrydsningsfeltet Rekursivt .
Starttidspunkt (UTC) og Sluttidspunkt (UTC) i Filtrer efter senest ændret, Præfiks, Aktivér partitionsregistrering og Yderligere kolonner er ikke angivet.
Du kan få mere at vide om, hvordan du henter data til dit Data Warehouse ved hjælp af kommandoen COPY, i denne artikel.
Hvis dit kildedatalager og -format ikke oprindeligt understøttes af en COPY-kommando, skal du i stedet bruge funktionen Fased kopi ved hjælp af kommandoen COPY. Dataene konverteres automatisk til et kopiér kommandokompatibelt format og kalder derefter en COPY-kommando for at indlæse data i Data Warehouse.
Faselagret kopi
Når dine kildedata ikke oprindeligt er kompatible med kommandoen COPY, skal du aktivere kopiering af data via et midlertidigt midlertidigt lagringslager. I dette tilfælde konverterer tjenesten automatisk dataene, så de opfylder kravene til dataformat i kommandoen COPY. Derefter aktiverer den kommandoen COPY for at indlæse data i Data Warehouse. Endelig rydder den op i dine midlertidige data fra lageret.
Hvis du vil bruge faseinddelt kopi, skal du gå til fanen Indstillinger og vælge Aktivér midlertidig lagring. Du kan vælge Arbejdsområde for at bruge automatisk oprettede midlertidige lagre i Fabric. For External understøttes Azure Blob Storage og Azure Data Lake Storage Gen2 som det eksterne midlertidige lager. Du skal først oprette en Azure Blob Storage- eller Azure Data Lake Storage Gen2-forbindelse og derefter vælge forbindelsen på rullelisten for at bruge det midlertidige lager.
Bemærk, at du skal sikre, at IP-intervallet for Data Warehouse er tilladt korrekt fra det midlertidige lager.
Tilknytning
Hvis du ikke anvender Data Warehouse med automatisk oprettelse af tabel som destination under fanen Tilknytning, skal du gå til Tilknytning.
Hvis du anvender Data Warehouse med automatisk oprettelse af tabel som destination, bortset fra konfigurationen i Tilknytning, kan du redigere typen for destinationskolonnerne. Når du har valgt Importér skemaer, kan du angive kolonnetypen i destinationen.
Typen af id-kolonne i kilden er f.eks. int, og du kan ændre den til flydende type, når du tilknytter destinationskolonnen.
Indstillinger
Gå til Indstillinger under fanen Indstillinger.
Tabeloversigt
Følgende tabeller indeholder flere oplysninger om en kopiaktivitet i Data Warehouse.
Kildeoplysninger
Navn | Beskrivelse | Værdi | Obligatorisk | JSON-scriptegenskab |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Arbejdsområde | Ja | / |
Datalagertype for arbejdsområde | Sektionen til valg af datalagertype for arbejdsområdet. | Data Warehouse | Ja | type |
Data Warehouse | Det data warehouse, du vil bruge. | <dit data warehouse> | Ja | slutpunkt artifactId |
Brug forespørgsel | Måden at læse data fra Data Warehouse på. | •Tabeller •Forespørgsel • Lagret procedure |
Nr. | (under typeProperties ->source )• typeEgenskaber: skema table • sqlReaderQuery • sqlReaderStoredProcedureName |
Timeout for forespørgsel (minutter) | Timeout for udførelse af forespørgselskommando med en standard på 120 minutter. Hvis denne egenskab er angivet, er de tilladte værdier i formatet for et tidsrum, f.eks. "02:00:00" (120 minutter). | timespan | Nr. | queryTimeout |
Isolationsniveau | Funktionsmåden for transaktionslåsning for kilden. | •Ingen •Snapshot |
Nr. | isolationLevel |
Partitionsindstilling | De indstillinger for datapartitionering, der bruges til at indlæse data fra Data Warehouse. | •Ingen •Dynamikområde |
Nr. | partitionOption |
Navn på partitionskolonne | Navnet på kildekolonnen i typen heltal eller dato/dato/klokkeslæt (int , smallint , bigint , smalldatetime date , , datetime , datetime2 eller datetimeoffset ), der bruges af områdepartitionering til parallel kopiering. Hvis den ikke er angivet, registreres indekset eller tabellens primære nøgle automatisk og bruges som partitionskolonnen. |
<navn på partitionskolonne> | Nr. | partitionColumnName |
Partition, øvre grænse | Den maksimale værdi for partitionskolonnen for opdeling af partitionsområde. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres. | <partition, øvre grænse> | Nr. | partitionUpperBound |
Partition med nedre grænse | Den mindste værdi for partitionskolonnen for opdeling af partitionsområdet. Denne værdi bruges til at bestemme partitionsskridtet, ikke til filtrering af rækkerne i tabellen. Alle rækker i tabellen eller forespørgselsresultatet partitioneres og kopieres. | <nederste grænse for partition> | Nr. | partitionLowerBound |
Flere kolonner | Tilføj yderligere datakolonner for at gemme kildefilernes relative sti eller statiske værdi. | • Navn •Værdi |
Nr. | additionalColumns: •Navn •værdi |
Destinationsoplysninger
Navn | Beskrivelse | Værdi | Obligatorisk | JSON-scriptegenskab |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Arbejdsområde | Ja | / |
Datalagertype for arbejdsområde | Sektionen til valg af datalagertype for arbejdsområdet. | Data Warehouse | Ja | type |
Data Warehouse | Det data warehouse, du vil bruge. | <dit data warehouse> | Ja | slutpunkt artifactId |
Tabel | Destinationstabellen til at skrive data. | <navnet på destinationstabellen> | Ja | skema table |
Kopiér kommandoindstillinger | Indstillingerne for kopiér kommandoegenskab. Indeholder indstillingerne for standardværdien. | Standardværdi: •Kolonne •Værdi |
Nr. | copyCommandSettings: defaultValues: • columnName • defaultValue |
Tabelindstilling | Angiver, om destinationstabellen skal oprettes automatisk, hvis der ikke findes nogen baseret på kildeskemaet. | •Ingen • Opret tabel automatisk |
Nr. | tableOption: • Opret automatisk |
Forudkopieringsscript | En SQL-forespørgsel, der skal køres, før du skriver data til Data Warehouse i hver kørsel. Brug denne egenskab til at rydde op i forudindlæste data. | <pre-copy script> | Nr. | preCopyScript |
Timeout for skrivning af batch | Ventetiden for, at batchindsætningshandlingen afsluttes, før der udløber timeout. De tilladte værdier er i formatet af et tidsrum. Standardværdien er "00:30:00" (30 minutter). | timespan | Nr. | writeBatchTimeout |
Deaktiver analyse af målepunkter for ydeevne | Tjenesten indsamler målepunkter til optimering af kopiydeevnen og anbefalinger, som introducerer yderligere adgang til masterdatabasen. | markér eller fjern markeringen | Nr. | disableMetricsCollection: true eller false |