Tietojen käyttö varastossa
Koskee:✅ Microsoft Fabric -varasto
Microsoft Fabricin Warehouse tarjoaa sisäisiä tietojen käsittelytyökaluja, joiden avulla käyttäjät voivat käsitellä tietoja varastoihin suuressa mittakaavassa käyttämällä koodittomia tai monipuolisia kokemuksia.
Tietojen käsittelyasetukset
Voit käsitellä tietoja varastossa käyttämällä jotakin seuraavista vaihtoehdoista:
- COPY (Transact-SQL): COPY-lauseke tarjoaa joustavan, suuren siirtomäärän tietojen käsittely ulkoisesta Azure-tallennustilistä. Voit käyttää COPY-lauseketta osana olemassa olevaa ETL/ELT-logiikkaa Transact-SQL-koodissa.
- Tietoputket: putket tarjoavat koodittoman tai vähäisen koodin käyttökokemuksen tietojen käsittelylle. Putkien avulla voit järjestää tehokkaita työnkulkuja kattavalle Poimi-, Muunna- ja Lataa (ETL) -käyttökokemukselle. Ne sisältävät toimintoja, jotka auttavat valmistelemaan kohdeympäristöä, suorittamaan mukautettuja Transact-SQL-lausekkeita, suorittamaan hakuja tai kopioimaan tietoja lähteestä kohdesijainniin.
- Tietovuot: Vaihtoehto putkille, tietovoille, jotka helpottavat tietojen valmistelua, puhdistamista ja muuntamista koodittoman käyttökokemuksen avulla.
- Ristivarastojen käsittely: tietojen käsittely työtilalähteistä on myös mahdollista. Tämä skenaario saattaa olla tarpeen, kun on tarpeen luoda uusi taulukko, jossa on eri taulukon osajoukko tai kun eri taulukoita liitetään varastoon ja Lakehouseen. Varastojen välisen tietojen käsittelemisen osalta mainittujen vaihtoehtojen lisäksi Transact-SQL-ominaisuudet, kuten INSERT... SELECT, SELECT INTO tai CREATE TABLE AS SELECT (CTAS) toimivat ristiinvaraston samassa työtilassa.
Päätä, mitä tietojen käsittelytyökalua haluat käyttää
Voit päättää, mitä tietojen käsittelyvaihtoehtoa käytät, seuraavien ehtojen avulla:
- Käytä COPY (Transact-SQL) -lauseketta koodipohjaisille tietojen käsittelytoiminnoille, suurimmalle tietojen käsittelymäärälle tai kun sinun on lisättävä tietojen käsittely osana Transact-SQL-logiikkaa. Katso syntaksi kohdasta KOPIOI KOHTEESEEN (Transact-SQL).
- Käytä koodittomia tai vähäkoodisia, tehokkaita tietojen käsittelytyönkulkuja, jotka suoritetaan toistuvasti, aikataulun mukaisesti tai jotka sisältävät suuria tietomääriä. Lisätietoja on kohdassa Tietojen käyttö tietoputkien avulla.
- Käytä tietovoita koodittomaan käyttökokemukseen, joka mahdollistaa lähdetietojen mukautetut muunnokset ennen niiden käyttöä. Näitä muunnoksia ovat esimerkiksi tietotyyppien muuttaminen, sarakkeiden lisääminen tai poistaminen tai laskettujen sarakkeiden luominen funktioiden avulla. Lisätietoja on kohdassa Tietovuot.
- Hyödynnä varastojen välistä tietojen käsittely monipuolisia ominaisuuksia varten ja luo uusia taulukoita, joiden lähdetiedot ovat samassa työtilassa. Lisätietoja on kohdassa Tietojen käyttö Transact-SQL: n ja tietokannan välisen kyselyn kirjoittamisen avulla.
Muistiinpano
COPY-lauseke Warehousessa tukee vain Azure-tallennustilien tietolähteitä. OneLake-lähteitä ei tällä hetkellä tueta.
Tuetut tietomuodot ja lähteet
Microsoft Fabric for Warehousen tietojen käsittely tarjoaa valtavan määrän tietomuotoja ja lähteitä, joita voit käyttää. Jokainen korostettu vaihtoehto sisältää oman luettelon tuetuista tietoyhdistintyypeistä ja tietomuodoista.
Tietolähteiden on oltava samassa Microsoft Fabric -työtilassa, jotta tietoja voidaan käyttää varastojen välillä. Kyselyt voidaan suorittaa käyttämällä lähdetietojen kolmiosaista nimeämistä.
Oletetaan esimerkiksi, että työtilassa on kaksi varastoa, joiden nimi on Inventory ja Sales. Seuraavanlainen kysely luo varastoon uuden taulukon, joka sisältää varastovarastossa olevan taulukon sisällön ja joka on liitetty taulukkoon Myynti-varastossa:
CREATE TABLE Inventory.dbo.RegionalSalesOrders
AS
SELECT s.SalesOrders, i.ProductName
FROM Sales.dbo.SalesOrders s
JOIN Inventory.dbo.Products i
WHERE s.ProductID = i.ProductID
AND s.Region = 'West region'
COPY (Transact-SQL) -lauseke tukee tällä hetkellä PARQUET- ja CSV-tiedostomuotoja. Tietolähteissä tuetaan tällä hetkellä Azure Data Lake Storage (ADLS) Gen2:ta ja Azure Blob -säilöä.
Tietoputket ja tietovuot tukevat useita erilaisia tietolähteitä ja tietomuotoja. Lisätietoja on kohdassa Tietoputket ja Tietovuot.
Parhaat käytännöt
Microsoft Fabric Warehousen COPY-komentotoiminto käyttää yksinkertaista, joustavaa ja nopeaa käyttöliittymää suuren siirtomäärän tietojen käsittelyyn SQL-kuormituksissa. Nykyisessä versiossa tuemme tietojen lataamista vain ulkoisista tallennustileistä.
TSQL:n avulla voit myös luoda uuden taulukon, lisätä siihen sekä päivittää ja poistaa tietorivejä. Tietoja voidaan lisätä mistä tahansa Microsoft Fabric -työtilan tietokannasta käyttämällä tietokantakyselyitä. Jos haluat käyttää Tietoja Lakehousesta varastoon, voit tehdä sen tietokannan välisen kyselyn avulla. Esimerkkejä:
INSERT INTO MyWarehouseTable
SELECT * FROM MyLakehouse.dbo.MyLakehouseTable;
- Vältä tietojen käyttämistä singleton INSERT - lausekkeiden avulla, mikä heikentää kyselyiden ja päivitysten suorituskykyä. Jos tietojen käsittelyssä käytetään yksittäisten lisääminen-lausekkeita peräkkäin, suosittelemme luomaan uuden taulukon käyttämällä LUO TAULUKKO MUODOSSA SELECT (CTAS) - tai INSERT-funktiota... VALITSE mallit, pudota alkuperäinen taulukko ja luo sitten taulukko uudelleen luomastasi taulukosta käyttämällä LUO TAULUKKO NIMELLÄ SELECT (CTAS) -toimintoa.
- Aiemmin luodun taulukon pudottaminen vaikuttaa semanttiseen malliin, mukaan lukien mahdollisiin mukautettuihin mittareihin ja mukautuksiin, jotka olet ehkä tehnyt semanttiseen malliin.
- Kun käsittelet tiedostoihin liittyviä ulkoisia tietoja, suosittelemme, että tiedostot ovat kooltaan vähintään 4 Mt.
- Jos kyseessä on suuri pakattu CSV-tiedosto, harkitse tiedoston jakamista useisiin tiedostoihin.
- Azure Data Lake Storage (ADLS) Gen2 tarjoaa paremman suorituskyvyn kuin Azure Blob -säilö (vanha). Harkitse ADLS Gen2 -tilin käyttämistä aina kun se on mahdollista.
- Usein suoritettavissa jaksoissa sinun kannattaa eristää Azure-tallennustilisi muista palveluista, jotka voisivat käyttää samoja tiedostoja samanaikaisesti.
- Eksplisiittisten tapahtumien avulla voit ryhmitellä useita tietojen muutoksia yhteen niin, että ne näkyvät vain lukiessa yhtä tai useampaa taulukkoa, kun tapahtuma on täysin varattu. Voit myös peruuttaa tapahtuman, jos jokin muutoksista epäonnistuu.
- Jos SELECT-funktio on tapahtuman sisällä ja sitä edelsi tietojen lisäys, automaattisesti luodut tilastotiedot voivat olla virheellisiä peruutuksen jälkeen. Virheelliset tilastot voivat johtaa optimoimattomaan kyselysuunnitelmiin ja suoritusaikoihin. Jos peruutat SELECTs-tapahtuman suuren LISÄYStoiminnon jälkeen, päivitä SELECT-funktiossa mainittujen sarakkeiden tilastotiedot .
Muistiinpano
Riippumatta siitä, miten tietoja käytetään varastoihin, tietojen käsittelytehtävän tuottamat parquet-tiedostot optimoidaan V-order-kirjoitusoptimoinnin avulla. V-Order optimoi parquet-tiedostot, jotta salamannopeat lukutoiminnot voidaan ottaa käyttöön Microsoft Fabric -käsittelymoduulissa, kuten Power BI:ssä, SQL:ssä ja Sparkissä. Tämä optimointi nopeuttaa kyselyiden lukemista varastokyselyissä, mikä varmistaa silti sen, että parquet-tiedostot ovat 100%:n yhteensopivia avoimen lähdekoodin määrityksen kanssa. Toisin kuin Fabric Data Engineeringissä, V-Order on Fabric Data Warehousessa yleinen asetus, jota ei voi poistaa käytöstä. Lisätietoja V-järjestyksestä on artikkelissa V-Order for Warehousen ymmärtäminen ja hallinta.