Datawarehouse configureren in een kopieeractiviteit
In dit artikel wordt beschreven hoe u de kopieeractiviteit in de gegevenspijplijn gebruikt om gegevens van en naar een datawarehouse te kopiëren.
Ondersteunde configuratie
Voor de configuratie van elk tabblad onder kopieeractiviteit gaat u respectievelijk naar de volgende secties.
Algemeen
Ga naar Algemeen voor de configuratie van het tabblad Algemeen.
Bron
De volgende eigenschappen worden ondersteund voor Data Warehouse als bron in een kopieeractiviteit.
De volgende eigenschappen zijn vereist:
Gegevensarchieftype: Werkruimte selecteren.
Type werkruimtegegevensarchief: Selecteer DataWarehouse in de lijst met gegevensopslagtypen.
Datawarehouse: Selecteer een bestaand datawarehouse in de werkruimte.
Query gebruiken: Selecteer de procedure Tabel, Query of Opgeslagen.
Als u Tabel selecteert, kiest u een bestaande tabel in de tabellijst of geeft u handmatig een tabelnaam op door het vak Bewerken te selecteren.
Als u Query selecteert, gebruikt u de aangepaste SQL-queryeditor om een SQL-query te schrijven waarmee de brongegevens worden opgehaald.
Als u Opgeslagen procedure selecteert , kiest u een bestaande opgeslagen procedure in de vervolgkeuzelijst of geeft u een opgeslagen procedurenaam op als bron door het vak Bewerken te selecteren.
Onder Geavanceerd kunt u de volgende velden opgeven:
Time-out van query (minuten): time-out voor uitvoering van queryopdrachten, met een standaardwaarde van 120 minuten. Als deze eigenschap is ingesteld, hebben de toegestane waarden de notatie van een periode, zoals '02:00:00' (120 minuten).
Isolatieniveau: Geef het gedrag voor transactievergrendeling op voor de SQL-bron.
Partitieoptie: Geef de opties voor gegevenspartitionering op die worden gebruikt voor het laden van gegevens uit datawarehouse. U kunt Geen of Dynamisch bereik selecteren.
Als u dynamisch bereik selecteert, is de bereikpartitieparameter(
?AdfDynamicRangePartitionCondition
) nodig bij het gebruik van query's waarvoor parallel is ingeschakeld. Voorbeeldquery:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition
.- Naam van partitiekolom: geef de naam op van de bronkolom in geheel getal of datum/datum/tijd-type (
int
,smallint
bigint
,date
,smalldatetime
,datetime
, ofdatetime2
datetimeoffset
) dat wordt gebruikt door bereikpartitionering voor parallelle kopie. Als deze niet is opgegeven, wordt de index of de primaire sleutel van de tabel automatisch gedetecteerd en gebruikt als de partitiekolom. - Bovengrens partitioneren: de maximumwaarde van de partitiekolom voor het splitsen van partitiebereiken. Deze waarde wordt gebruikt om de partitie-onderdrukking te bepalen, niet voor het filteren van de rijen in de tabel. Alle rijen in de tabel of het queryresultaat worden gepartitioneerd en gekopieerd.
- Partitie ondergrens: de minimumwaarde van de partitiekolom voor het splitsen van partitiebereiken. Deze waarde wordt gebruikt om de partitie-onderdrukking te bepalen, niet voor het filteren van de rijen in de tabel. Alle rijen in de tabel of het queryresultaat worden gepartitioneerd en gekopieerd.
- Naam van partitiekolom: geef de naam op van de bronkolom in geheel getal of datum/datum/tijd-type (
Aanvullende kolommen: voeg extra gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. Expressie wordt ondersteund voor de laatste.
Bestemming
De volgende eigenschappen worden ondersteund voor Data Warehouse als bestemming in een kopieeractiviteit.
De volgende eigenschappen zijn vereist:
- Gegevensarchieftype: Werkruimte selecteren.
- Type werkruimtegegevensarchief: Selecteer DataWarehouse in de lijst met gegevensopslagtypen.
- Datawarehouse: Selecteer een bestaand datawarehouse in de werkruimte.
- Tabel: Kies een bestaande tabel in de tabellijst of geef een tabelnaam op als doel.
Onder Geavanceerd kunt u de volgende velden opgeven:
Instellingen voor de kopieeropdracht: geef eigenschappen van de kopieeropdracht op.
Tabelopties: Geef op of de doeltabel automatisch moet worden gemaakt als er geen bestaat op basis van het bronschema. U kunt Geen of Automatisch tabel maken selecteren.
Script vooraf kopiëren: Geef in elke uitvoering een SQL-query op die moet worden uitgevoerd voordat u gegevens in Data Warehouse schrijft. Gebruik deze eigenschap om de vooraf geladen gegevens op te schonen.
Time-out van batch schrijven: de wachttijd voor de batchinvoegbewerking die moet worden voltooid voordat er een time-out optreedt. De toegestane waarden hebben de notatie van een tijdspanne. De standaardwaarde is '00:30:00' (30 minuten).
Analyse van metrische prestatiegegevens uitschakelen: de service verzamelt metrische gegevens voor optimalisatie en aanbevelingen voor kopieerprestaties. Als u zich zorgen maakt over dit gedrag, schakelt u deze functie uit.
Directe kopie
De COPY-instructie is de primaire manier om gegevens op te nemen in magazijntabellen. De opdracht Data Warehouse COPY biedt rechtstreeks ondersteuning voor Azure Blob Storage en Azure Data Lake Storage Gen2 als brongegevensarchieven. Als uw brongegevens voldoen aan de criteria die in deze sectie worden beschreven, gebruikt u de opdracht COPY om rechtstreeks vanuit het brongegevensarchief naar datawarehouse te kopiëren.
De brongegevens en -indeling bevatten de volgende typen en verificatiemethoden:
Ondersteund type brongegevensarchief Ondersteunde indeling Ondersteund type bronverificatie Azure Blob-opslag Tekst met scheidingstekens
ParquetAnonieme verificatie
Verificatie van accountsleutels
Shared Access Signature AuthenticationAzure Data Lake Storage Gen2 Tekst met scheidingstekens
ParquetVerificatie van accountsleutels
Shared Access Signature AuthenticationDe volgende indelingsinstellingen kunnen worden ingesteld:
- Voor Parquet: Het compressietype kan geen, snappy of gzip zijn.
- Voor DelimitedText:
- Rijscheidingsteken: Bij het kopiëren van tekst met scheidingstekens naar Data Warehouse via de directe COPY-opdracht geeft u expliciet het rijscheidingsteken op (\r; \n; of \r\n). Alleen wanneer het rijscheidingsteken van het bronbestand \r\n is, werkt de standaardwaarde (\r, \n of \r\n) . Schakel anders fasering in voor uw scenario.
- Null-waarde blijft standaard staan of is ingesteld op een lege tekenreeks (').<
/a0> - Codering blijft standaard staan of ingesteld op UTF-8 of UTF-16.
- Het aantal regels overslaan blijft standaard staan of is ingesteld op 0.
- Het type compressie kan Geen of gzip zijn.
Als uw bron een map is, moet u het selectievakje Recursief inschakelen.
Begintijd (UTC) en eindtijd (UTC) in Filter op laatst gewijzigd, Voorvoegsel, Partitiedetectie inschakelen en Aanvullende kolommen worden niet opgegeven.
Zie dit artikel voor meer informatie over het opnemen van gegevens in uw datawarehouse met behulp van de opdracht COPY.
Als uw brongegevensarchief en -indeling niet oorspronkelijk wordt ondersteund door een COPY-opdracht, gebruikt u in plaats daarvan de gefaseerde kopie met behulp van de functie COPY-opdracht. De gegevens worden automatisch geconverteerd naar een indeling die compatibel is met copy-opdrachten en roept vervolgens een COPY-opdracht aan om gegevens te laden in datawarehouse.
Gefaseerde kopie
Wanneer uw brongegevens niet systeemeigen compatibel zijn met de opdracht COPY, schakelt u het kopiëren van gegevens in via een tijdelijke faseringsopslag. In dit geval converteert de service de gegevens automatisch om te voldoen aan de vereisten voor de gegevensindeling van de opdracht COPY. Vervolgens wordt de opdracht COPY aangeroepen om gegevens in datawarehouse te laden. Ten slotte worden uw tijdelijke gegevens uit de opslag opgeschoond.
Als u gefaseerde kopie wilt gebruiken, gaat u naar het tabblad Instellingen en selecteert u Fasering inschakelen. U kunt Werkruimte kiezen voor het gebruik van automatisch gemaakte faseringsopslag in Fabric. Voor Extern worden Azure Blob Storage en Azure Data Lake Storage Gen2 ondersteund als de externe faseringsopslag. U moet eerst een Azure Blob Storage- of Azure Data Lake Storage Gen2-verbinding maken en vervolgens de verbinding selecteren in de vervolgkeuzelijst om de faseringsopslag te gebruiken.
Houd er rekening mee dat u ervoor moet zorgen dat het IP-bereik van het datawarehouse correct is toegestaan vanuit de faseringsopslag.
Toewijzing
Als u voor de configuratie van het tabblad Toewijzing geen datawarehouse met automatisch maken als bestemming toepast, gaat u naar Toewijzing.
Als u Data Warehouse met automatisch maken als bestemming toepast, met uitzondering van de configuratie in Toewijzing, kunt u het type voor de doelkolommen bewerken. Nadat u Importschema's hebt geselecteerd, kunt u het kolomtype opgeven in uw bestemming.
Het type voor de id-kolom in de bron is bijvoorbeeld int en u kunt dit wijzigen in floattype bij het toewijzen aan de doelkolom.
Instellingen
Ga naar Instellingen voor de configuratie van het tabblad Instellingen.
Tabelsamenvatting
De volgende tabellen bevatten meer informatie over een kopieeractiviteit in Data Warehouse.
Brongegevens
Name | Beschrijving | Waarde | Vereist | JSON-scripteigenschap |
---|---|---|---|---|
Gegevensarchieftype | Het gegevensarchieftype. | Werkruimte | Ja | / |
Gegevensarchieftype werkruimte | De sectie voor het selecteren van het gegevensarchieftype van uw werkruimte. | Datawarehouse | Ja | type |
Datawarehouse | Het datawarehouse dat u wilt gebruiken. | <uw datawarehouse> | Ja | endpoint artifactId |
Query gebruiken | De manier om gegevens uit datawarehouse te lezen. | •Tabellen •Vraag • Opgeslagen procedure |
Nee | (onder typeProperties ->source )• typeProperties: schema table • sqlReaderQuery • sqlReaderStoredProcedureName |
Time-out van query (minuten) | Time-out voor het uitvoeren van queryopdrachten, met een standaardwaarde van 120 minuten. Als deze eigenschap is ingesteld, hebben de toegestane waarden de notatie van een periode, zoals '02:00:00' (120 minuten). | tijdsbestek | Nee | queryTimeout |
Isolatieniveau | Het gedrag voor transactievergrendeling voor de bron. | •Geen •Momentopname |
Nee | isolationLevel |
Partitieoptie | De opties voor gegevenspartitionering die worden gebruikt voor het laden van gegevens uit datawarehouse. | •Geen • Dynamisch bereik |
Nee | partitionOption |
Naam van partitiekolom | De naam van de bronkolom in geheel getal of datum/datum/tijd(int , smallint , date bigint , smalldatetime , datetime , of datetime2 datetimeoffset ) die wordt gebruikt door bereikpartitionering voor parallelle kopie. Als deze niet is opgegeven, wordt de index of de primaire sleutel van de tabel automatisch gedetecteerd en gebruikt als de partitiekolom. |
<naam van partitiekolom> | Nee | partitionColumnName |
Bovengrens partitioneren | De maximumwaarde van de partitiekolom voor het splitsen van partitiebereiken. Deze waarde wordt gebruikt om de partitie-onderdrukking te bepalen, niet voor het filteren van de rijen in de tabel. Alle rijen in de tabel of het queryresultaat worden gepartitioneerd en gekopieerd. | <bovengrens partitie> | Nee | partitionUpperBound |
Ondergrens van partitie | De minimale waarde van de partitiekolom voor het splitsen van partitiebereiken. Deze waarde wordt gebruikt om de partitie-onderdrukking te bepalen, niet voor het filteren van de rijen in de tabel. Alle rijen in de tabel of het queryresultaat worden gepartitioneerd en gekopieerd. | <partitie ondergrens> | Nee | partitionLowerBound |
Aanvullende kolommen | Voeg extra gegevenskolommen toe om het relatieve pad of de statische waarde van bronbestanden op te slaan. | • Naam •Waarde |
Nee | additionalColumns: •naam •waarde |
Doelgegevens
Name | Beschrijving | Waarde | Vereist | JSON-scripteigenschap |
---|---|---|---|---|
Gegevensarchieftype | Het gegevensarchieftype. | Werkruimte | Ja | / |
Gegevensarchieftype werkruimte | De sectie voor het selecteren van het gegevensarchieftype van uw werkruimte. | Datawarehouse | Ja | type |
Datawarehouse | Het datawarehouse dat u wilt gebruiken. | <uw datawarehouse> | Ja | endpoint artifactId |
Tabel | De doeltabel voor het schrijven van gegevens. | <naam van de doeltabel> | Ja | schema table |
Opdrachtinstellingen kopiëren | De instellingen voor de eigenschap van de kopieeropdracht. Bevat de standaardwaarde-instellingen. | Standaardwaarde: •Kolom •Waarde |
Nee | copyCommandSettings: defaultValues: • columnName • defaultValue |
Tabeloptie | Of de doeltabel automatisch moet worden gemaakt als er geen bestaat op basis van het bronschema. | •Geen • Tabel automatisch maken |
Nee | tableOption: • autoCreate |
Script vooraf kopiëren | Een SQL-query die moet worden uitgevoerd voordat u in elke uitvoering gegevens naar Data Warehouse schrijft. Gebruik deze eigenschap om de vooraf geladen gegevens op te schonen. | <script vooraf kopiëren> | Nee | preCopyScript |
Time-out voor batchbewerkingen schrijven | De wachttijd voordat de batchinvoegbewerking is voltooid voordat er een time-out optreedt. De toegestane waarden hebben de notatie van een tijdspanne. De standaardwaarde is '00:30:00' (30 minuten). | tijdsbestek | Nee | writeBatchTimeout |
Analyse van metrische prestatiegegevens uitschakelen | De service verzamelt metrische gegevens voor optimalisatie van kopieerprestaties en aanbevelingen, waardoor extra toegang tot hoofddatabases wordt geïntroduceerd. | selecteren of de selectie opheffen | Nee | disableMetricsCollection: waar of onwaar |