Konfigurere datalager i en kopiaktivitet
Denne artikkelen beskriver hvordan du bruker kopieringsaktiviteten i datasamlebåndet til å kopiere data fra og til et datalager.
Støttet konfigurasjon
Hvis du vil ha konfigurasjonen av hver fane under kopieringsaktivitet, kan du gå til følgende inndelinger.
Generelt
Gå til Generelt for fanekonfigurasjonen Generelt.
Kilde
Følgende egenskaper støttes for Data Warehouse som kilde i en kopiaktivitet.
Følgende egenskaper er nødvendige:
Datalagertype: Velg arbeidsområde.
Datalagertype for arbeidsområde: Velg Datalager fra datalagertypelisten.
Datalager: Velg et eksisterende datalager fra arbeidsområdet.
Bruk spørring: Velg tabell, spørring eller lagret prosedyre.
Hvis du velger Tabell, velger du en eksisterende tabell fra tabelllisten eller angir et tabellnavn manuelt ved å velge Rediger-boksen .
Hvis du velger Spørring, bruker du redigeringsprogrammet for egendefinert SQL-spørring til å skrive en SQL-spørring som henter kildedataene.
Hvis du velger Lagret prosedyre, velger du en eksisterende lagret prosedyre fra rullegardinlisten, eller angir et lagret prosedyrenavn som kilde ved å velge Rediger-boksen .
Under Avansert kan du angi følgende felt:
Tidsavbrudd for spørring (minutter): Tidsavbrudd for kjøring av spørringskommando, med en standard på 120 minutter. Hvis denne egenskapen er angitt, er de tillatte verdiene i formatet til et tidsrom, for eksempel "02:00:00" (120 minutter).
Isolasjonsnivå: Angi virkemåten for transaksjonslås for SQL-kilden.
Partisjonsalternativ: Angi alternativene for datapartisjonering som brukes til å laste inn data fra Data Warehouse. Du kan velge Ingen eller Dynamisk område.
Hvis du velger Dynamisk område, kreves parameteren for områdepartisjon(
?AdfDynamicRangePartitionCondition
) når du bruker spørring med parallellaktivert. Eksempelspørring:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition
.- Partisjonskolonnenavn: Angi navnet på kildekolonnen i heltall eller dato/datetime-type (
int
, ,smallint
,bigint
,date
,smalldatetime
,datetime
,datetime2
ellerdatetimeoffset
) som brukes av områdepartisjonering for parallell kopi. Hvis det ikke er angitt, oppdages indeksen eller primærnøkkelen for tabellen automatisk og brukes som partisjonskolonne. - Partisjonsgrense: Maksimumsverdien for partisjonskolonnen for deling av partisjonsområde. Denne verdien brukes til å bestemme partisjonssteget, ikke for filtrering av radene i tabellen. Alle rader i tabellen eller spørringsresultatet partisjoneres og kopieres.
- Partisjon lavere grense: Minimumsverdien for partisjonskolonnen for deling av partisjonsområde. Denne verdien brukes til å bestemme partisjonssteget, ikke for filtrering av radene i tabellen. Alle rader i tabellen eller spørringsresultatet partisjoneres og kopieres.
- Partisjonskolonnenavn: Angi navnet på kildekolonnen i heltall eller dato/datetime-type (
Flere kolonner: Legg til flere datakolonner for å lagre kildefilens relative bane eller statiske verdi. Uttrykket støttes for sistnevnte.
Mål
Følgende egenskaper støttes for Data Warehouse som mål i en kopiaktivitet.
Følgende egenskaper er nødvendige:
- Datalagertype: Velg arbeidsområde.
- Datalagertype for arbeidsområde: Velg Datalager fra datalagertypelisten.
- Datalager: Velg et eksisterende datalager fra arbeidsområdet.
- Tabell: Velg en eksisterende tabell fra tabelllisten, eller angi et tabellnavn som mål.
Under Avansert kan du angi følgende felt:
Kopier kommandoinnstillinger: Angi egenskaper for kopieringskommando.
Tabellalternativer: Angi om måltabellen skal opprettes automatisk hvis det ikke finnes noen basert på kildeskjemaet. Du kan velge Ingen eller Opprett tabell automatisk.
Forhåndskopier skript: Angi en SQL-spørring som skal kjøres før du skriver data til Data Warehouse i hver kjøring. Bruk denne egenskapen til å rydde opp i de forhåndslastede dataene.
Tidsavbrudd for skrivegruppe: Ventetiden for at den satsvise innsettingsoperasjonen skal fullføres før den blir tidsavbrutt. De tillatte verdiene er i formatet til et tidsrom. Standardverdien er 00:30:00 (30 minutter).
Deaktiver analyse av ytelsesmåledata: Tjenesten samler inn måledata for kopiering av ytelsesoptimalisering og anbefalinger. Hvis du er opptatt av denne virkemåten, deaktiverer du denne funksjonen.
Direkte kopi
COPY-setningen er den primære måten å innta data på i Lager-tabeller. Kommandoen Data Warehouse COPY støtter direkte Azure Blob Storage og Azure Data Lake Storage Gen2 som kildedatalagre. Hvis kildedataene oppfyller vilkårene som er beskrevet i denne delen, kan du bruke KOPIER-kommandoen til å kopiere direkte fra kildedatalageret til Data Warehouse.
Kildedataene og formatet inneholder følgende typer og godkjenningsmetoder:
Støttet kildedatalagertype Støttet format Støttet kildegodkjenningstype Azure Blob-lagring Tekst med skilletegn
ParquetAnonym godkjenning
Godkjenning av kontonøkkel
Godkjenning av delt tilgangssignaturAzure Data Lake Storage Gen2 Tekst med skilletegn
ParquetGodkjenning av kontonøkkel
Godkjenning av delt tilgangssignaturFølgende formatinnstillinger kan angis:
- For parquet: Komprimeringstype kan være Ingen, kjapp eller gzip.
- For Skilletegntekst:
- Radskilletegn: Når du kopierer tekst med skilletegn til DataLager via direkte KOPIER-kommando, angir du radskilletegnet eksplisitt (\r; \n; eller \r\n). Bare når radskilletegnet for kildefilen er \r\n, fungerer standardverdien (\r, \n eller \r\n). Ellers kan du aktivere oppsamling for scenarioet ditt.
- Nullverdi er igjen som standard eller satt til tom streng ("").
- Koding er igjen som standard eller satt til UTF-8 eller UTF-16.
- Hopp over linjeantallet er igjen som standard eller satt til 0.
- Komprimeringstype kan være Ingen eller gzip.
Hvis kilden er en mappe, må du merke av for Rekursivt .
Starttidspunkt (UTC) og Sluttidspunkt (UTC) i Filter etter sist endret, Prefiks, Aktiver partisjonsoppdagelse og flere kolonner er ikke angitt.
Hvis du vil lære hvordan du inntar data i datalageret ved hjelp av KOMMANDOEN KOPIER, kan du se denne artikkelen.
Hvis kildedatalageret og -formatet ikke opprinnelig støttes av en COPY-kommando, bruker du trinnvis kopi ved hjelp av kommandoen KOPIER i stedet. Dataene konverteres automatisk til et KOPIER-kommandokompatibelt format, og kaller deretter en COPY-kommando for å laste inn data i Data Warehouse.
Trinnvis kopi
Når kildedataene ikke er kompatible med COPY-kommandoen, aktiverer du datakopiering via en midlertidig oppsamlingslagring. I dette tilfellet konverterer tjenesten automatisk dataene slik at de oppfyller dataformatkravene for KOMMANDOEN KOPIER. Deretter aktiverer den KOPIER-kommandoen for å laste inn data i Data Warehouse. Til slutt rydder den opp midlertidige data fra lagringsplassen.
Hvis du vil bruke trinnvis kopi, går du til Innstillinger-fanen og velger Aktiver oppsamling. Du kan velge Arbeidsområde for å bruke automatisk opprettet oppsamlingslagring i Fabric. For ekstern støttes Azure Blob Storage og Azure Data Lake Storage Gen2 som ekstern oppsamlingslagring. Du må først opprette en Azure Blob Storage- eller Azure Data Lake Storage Gen2-tilkobling, og deretter velge tilkoblingen fra rullegardinlisten for å bruke oppsamlingslagringen.
Vær oppmerksom på at du må sikre at IP-området til datalageret er riktig tillatt fra oppsamlingslagringen.
Tilordning
Hvis du ikke bruker Datalager med automatisk opprettingstabell som mål, går du til Tilordning for fanekonfigurasjonen Tilordning.
Hvis du bruker Data Warehouse med automatisk oppretting av tabell som mål, bortsett fra konfigurasjonen i Tilordning, kan du redigere typen for målkolonnene. Når du har valgt Importer skjemaer, kan du angi kolonnetypen i målet.
Typen for ID-kolonne i kilde er for eksempel heltall, og du kan endre den til flyttype når du tilordner til målkolonnen.
Innstillinger
Gå til Innstillinger for konfigurasjon av innstillinger-fanen.
Tabellsammendrag
Tabellene nedenfor inneholder mer informasjon om en kopiaktivitet i Data Warehouse.
Kildeinformasjon
Name | Beskrivelse | Verdi | Kreves | JSON-skriptegenskap |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Arbeidsområde | Ja | / |
Datalagertype for arbeidsområde | Inndelingen for å velge datalagertypen for arbeidsområdet. | Datalager | Ja | type |
Datalager | Datalageret du vil bruke. | <datalageret> | Ja | endepunkt artifactId |
Bruk spørring | Måten å lese data fra Data Warehouse på. | •Tabeller •Spørsmål • Lagret prosedyre |
No | (under typeProperties ->source )• typeProperties: schema tabellen • sqlReaderQuery • sqlReaderStoredProcedureName |
Tidsavbrudd for spørring (minutter) | Tidsavbrudd for kjøring av spørringskommando, med en standard på 120 minutter. Hvis denne egenskapen er angitt, er de tillatte verdiene i formatet til et tidsrom, for eksempel "02:00:00" (120 minutter). | tidsrom | No | queryTimeout |
Isolasjonsnivå | Virkemåten for transaksjonslåing for kilde. | •Ingen •Snapshot |
No | isolationLevel |
Partisjonsalternativ | Alternativene for datapartisjonering som brukes til å laste inn data fra Data Warehouse. | •Ingen • Dynamisk område |
No | partitionOption |
Partisjonskolonnenavn | Navnet på kildekolonnen i heltall eller dato/datetime-type (int , , smallint , bigint , date , smalldatetime , datetime datetime2 eller datetimeoffset ) som brukes av områdepartisjonering for parallell kopi. Hvis det ikke er angitt, oppdages indeksen eller primærnøkkelen for tabellen automatisk og brukes som partisjonskolonne. |
<partisjonskolonnenavn> | No | partitionColumnName |
Partisjonens øvre grense | Maksimumsverdien for partisjonskolonnen for deling av partisjonsområde. Denne verdien brukes til å bestemme partisjonssteget, ikke for filtrering av radene i tabellen. Alle rader i tabellen eller spørringsresultatet partisjoneres og kopieres. | <partisjonen øvre grense> | No | partitionUpperBound |
Partisjon nedre grense | Minimumsverdien for partisjonskolonnen for deling av partisjonsområde. Denne verdien brukes til å bestemme partisjonssteget, ikke for filtrering av radene i tabellen. Alle rader i tabellen eller spørringsresultatet partisjoneres og kopieres. | <partisjonen er lavere bundet> | No | partitionLowerBound |
Flere kolonner | Legg til flere datakolonner for å lagre kildefilens relative bane eller statiske verdi. | • Navn •Verdi |
No | additionalColumns: •navn •verdi |
Målinformasjon
Name | Beskrivelse | Verdi | Kreves | JSON-skriptegenskap |
---|---|---|---|---|
Datalagertype | Datalagertypen. | Arbeidsområde | Ja | / |
Datalagertype for arbeidsområde | Inndelingen for å velge datalagertypen for arbeidsområdet. | Datalager | Ja | type |
Datalager | Datalageret du vil bruke. | <datalageret> | Ja | endepunkt artifactId |
Tabell | Måltabellen for å skrive data. | <navnet på måltabellen> | Ja | skjema tabellen |
Kopier kommandoinnstillinger | Egenskapsinnstillingene for kopieringskommandoen. Inneholder standard verdiinnstillinger. | Standardverdi: •Kolonne •Verdi |
No | copyCommandSettings: defaultValues: • columnName • defaultValue |
Tabellalternativ | Om måltabellen skal opprettes automatisk hvis det ikke finnes noen basert på kildeskjemaet. | •Ingen • Opprett tabell automatisk |
No | tableOption: • autooppretting |
Forhåndskopier skript | En SQL-spørring som skal kjøres før du skriver data til Data Warehouse i hver kjøring. Bruk denne egenskapen til å rydde opp i de forhåndslastede dataene. | <forhåndskopieringsskript> | No | preCopyScript |
Tidsavbrudd for skrivegruppe | Ventetiden for at den satsvise innsettingsoperasjonen skal fullføres før den blir tidsavbrutt. De tillatte verdiene er i formatet til et tidsrom. Standardverdien er 00:30:00 (30 minutter). | tidsrom | No | writeBatchTimeout |
Deaktiver analyse av ytelsesmåledata | Tjenesten samler inn måledata for kopiering av ytelsesoptimalisering og anbefalinger, som introduserer ekstra master DB-tilgang. | merke eller fjerne merkingen | No | disableMetricsCollection: sann eller usann |