Microsoft Fabric -päätöksenteko-opas: toimintojen, tietovuon tai Sparkin kopiointi

Artikkeli
01/28/2025

Tämän viiteoppaan ja esimerkkiskenaarioiden avulla voit päättää, tarvitsetko Microsoft Fabric -kuormituksille kopiotoiminnon, tietovuon vai Sparkin.

Aktiviteetin, tietovuon ja Spark-ominaisuuksien kopioiminen

	Putken kopiointitoiminnon	Gen 2 -	Spark
Tapauksen käyttö	Data Lake -tallennustilan ja tietovaraston siirto, tietojen käsittely, kevyt muunnos	tietojen käsittely, tietojen muunnos, tietojen järjesteleminen, tietojen profilointi	tietojen käsittely, tietojen muunnos, tietojenkäsittely tietojen profilointi
ensisijaisen kehittäjän persoonan	tietoteknikko, tietojen integrointi	tietoteknikko, tietojen integrointi, yritysanalyytikko	tietoteknikko, datatieteilijälle, data developer
	PML, SQL JSON	PML, M, SQL	Spark (Scala, Python, Spark SQL, R)
Coden kirjoittama	Ei koodia, low code	Ei koodia, low code	Koodi
Tietojen määrä	Matalasta korkeaan	Matalasta korkeaan	Matalasta korkeaan
Development -käyttöliittymän	Velho purjekangas	Power Query	Muistikirja Spark-työn määritys
-lähteiden	Yli 30 liitintä	Yli 150 liitintä	Satoja Spark-kirjastoja
kohteet	Yli 18 liitintä	Lakehouse, Azure SQL -tietokanta, Azure Data Explorer, Azure Synapse Analytics	Satoja Spark-kirjastoja
muunnoksen monimutkaisuus	Matala: kevyt – tyypin muuntaminen, sarakkeiden yhdistäminen, tiedostojen yhdistäminen/jakaminen, hierarkian tasoittaminen	Matalasta korkeaan: Yli 300 muunnosfunktiota	Matalasta korkeaan: alkuperäisten Spark- ja avoimen lähdekoodin kirjastojen tuki

Seuraavista kolmesta skenaariosta saat ohjeita tietojen käsittelytavan valitsemiseen Fabricissa.

Skenaario 1

Tietoteknikko Leo tarvitsee suuren määrän tietoja ulkoisista järjestelmistä sekä paikallisista että pilvipalveluista. Näitä ulkoisia järjestelmiä ovat tietokannat, tiedostojärjestelmät ja ohjelmointirajapinnat. Leo ei halua kirjoittaa ja ylläpitää koodia jokaiselle liittimelle tai tietojen siirtotoiminnolle. Hän haluaa seurata mitalilion tasojen parhaita käytäntöjä pronssilla, hopealla ja kullalla. Leolla ei ole kokemusta Sparkistä, joten hän suosii mahdollisimman paljon vetämisen ja pudottamisen käyttöliittymää mahdollisimman pienellä koodaamisella. Lisäksi hän haluaa käsitellä tiedot aikataulun mukaisesti.

Ensimmäinen vaihe on raakadatan vieminen pronssikerroksen lakehouseen Azuren tietoresursseista ja useista kolmannen osapuolen lähteistä (kuten Snowflake Web, REST, AWS S3, GCS jne.). Hän haluaa yhdistetyn lakehousen, jotta kaikki tiedot eri LOB: stä, paikallisista ja pilvilähteistä sijaitsevat yhdessä paikassa. Leo arvioi vaihtoehdot ja valitsee jakson kopiointitoiminnon sopivaksi vaihtoehdoksi hänen raaka binaarikopiolleen. Tämä malli koskee sekä historiallista että lisäävää tietojen päivitystä. Kopiointitoiminnon avulla Leo voi ladata Kulta-tiedot tietovarastoon ilman koodia, jos tarve tulee esiin, ja jaksot tarjoavat suuren mittakaavan tietojen käsittelytoimintoja, jotka voivat siirtää petatavuskaavan mittakaavan tietoja. Kopiointitoiminto on paras vähäkoodinen ja koodittomuusvalinta, kun haluat siirtää petatavuja tietoa lakehouseihin ja varastoihin lähdelajikkeista joko ad hoc- tai aikataulun mukaan.

Skenaario2

Mary on tietoteknikko, jolla on syvällinen tietämys lob-analytiikkavaatimuksista. Yläpuolinen ryhmä on onnistuneesti ottanut käyttöön ratkaisun useiden LOB:n historiallisten ja lisäävien tietojen siirtämiseksi yhteiseen Lakehouseen. Maryn tehtävänä on siistiä tietoja, soveltaa liiketoimintalogiikkaa ja ladata ne useisiin kohteisiin (kuten Azure SQL -tietokantaan, ADX:ään ja Lakehouseen) valmistautuessaan vastaaviin raportointitiimeihin.

Mary on kokenut Power Query -käyttäjä, ja tietojen määrä on matalalla tai keskitasoisella alueella halutun suorituskyvyn saavuttamiseksi. Tietovuot tarjoavat koodittomuus rajapintoja tai vähäisen koodin rajapintoja, joiden avulla voit käsitellä tietoja sadoista tietolähteistä. Tietovoiden avulla voit muuntaa tietoja käyttämällä yli 300 tietojen muunnosvaihtoehtoa ja kirjoittaa tulokset useisiin kohteisiin helppokäyttöisen ja erittäin visuaalisen käyttöliittymän avulla. Marja arvioi vaihtoehdot ja päättää, että on järkevää käyttää Dataflow Gen 2 suosimakseen muunnosvaihtoehdoksi.

Skenaario 3

Adam on tietoteknikko, joka työskentelee suuressa jälleenmyyntiyrityksessä, joka käyttää Lakehousea asiakastietojensa tallentamiseen ja analysointiin. Adam on osana työtään vastuussa dataputkien rakentamisesta ja ylläpidosta, jotka poimivat, muuntavat ja lataavat tietoja Lakehouseen. Yksi yrityksen liiketoimintavaatimuksista on asiakkaan arviointianalytiikan suorittaminen, jotta saadaan merkityksellisiä tietoja asiakkaiden kokemuksista ja heidän palvelujensa parantamisesta.

Adam päättää, että paras vaihtoehto on käyttää Spark poiminta- ja muunnoslogiikan luomiseen. Spark tarjoaa hajautetun tietojenkäsittelyympäristön, joka voi käsitellä suuria tietomääriä rinnakkain. Hän kirjoittaa Spark-sovelluksen käyttämällä Pythonia tai Scalaa. Siinä lukee OneLakesta jäsennettyjä, puolirakenteisia ja jäsentämättömiä tietoja asiakastarkastuksia ja palautetta varten. Sovellus puhdistaa, muuntaa ja kirjoittaa tietoa Lakehousen Delta-taulukoihin. Tiedot ovat sitten valmiita käytettäviksi jatkoanalytiikkaan.

Jaa

Microsoft Fabric -päätöksenteko-opas: toimintojen, tietovuon tai Sparkin kopiointi

Aktiviteetin, tietovuon ja Spark-ominaisuuksien kopioiminen

Skenaario 1

Skenaario2

Skenaario 3

Palaute

Lisäresursseja

Jaa

Microsoft Fabric -päätöksenteko-opas: toimintojen, tietovuon tai Sparkin kopiointi

Aktiviteetin, tietovuon ja Spark-ominaisuuksien kopioiminen

Skenaario 1

Skenaario2

Skenaario 3

Aiheeseen liittyvä sisältö

Palaute

Lisäresursseja