Jaa


Microsoft Fabric -päätöksenteko-opas: toimintojen, tietovuon tai Sparkin kopiointi

Tämän viiteoppaan ja esimerkkiskenaarioiden avulla voit päättää, tarvitsetko Microsoft Fabric -kuormituksille kopiotoiminnon, tietovuon vai Sparkin.

Aktiviteetin, tietovuon ja Spark-ominaisuuksien kopioiminen

Putken kopiointitoiminnon Gen 2 - Spark
Tapauksen käyttö Data Lake -tallennustilan ja tietovaraston siirto,
tietojen käsittely,
kevyt muunnos
tietojen käsittely,
tietojen muunnos,
tietojen järjesteleminen,
tietojen profilointi
tietojen käsittely,
tietojen muunnos,
tietojenkäsittely
tietojen profilointi
ensisijaisen kehittäjän persoonan tietoteknikko,
tietojen integrointi
tietoteknikko,
tietojen integrointi,
yritysanalyytikko
tietoteknikko,
datatieteilijälle,
data developer
PML,
SQL
JSON
PML,
M,
SQL
Spark (Scala, Python, Spark SQL, R)
Coden kirjoittama Ei koodia,
low code
Ei koodia,
low code
Koodi
Tietojen määrä Matalasta korkeaan Matalasta korkeaan Matalasta korkeaan
Development -käyttöliittymän Velho
purjekangas
Power Query Muistikirja
Spark-työn määritys
-lähteiden Yli 30 liitintä Yli 150 liitintä Satoja Spark-kirjastoja
kohteet Yli 18 liitintä Lakehouse,
Azure SQL -tietokanta,
Azure Data Explorer,
Azure Synapse Analytics
Satoja Spark-kirjastoja
muunnoksen monimutkaisuus Matala:
kevyt – tyypin muuntaminen, sarakkeiden yhdistäminen, tiedostojen yhdistäminen/jakaminen, hierarkian tasoittaminen
Matalasta korkeaan:
Yli 300 muunnosfunktiota
Matalasta korkeaan:
alkuperäisten Spark- ja avoimen lähdekoodin kirjastojen tuki

Seuraavista kolmesta skenaariosta saat ohjeita tietojen käsittelytavan valitsemiseen Fabricissa.

Skenaario 1

Tietoteknikko Leo tarvitsee suuren määrän tietoja ulkoisista järjestelmistä sekä paikallisista että pilvipalveluista. Näitä ulkoisia järjestelmiä ovat tietokannat, tiedostojärjestelmät ja ohjelmointirajapinnat. Leo ei halua kirjoittaa ja ylläpitää koodia jokaiselle liittimelle tai tietojen siirtotoiminnolle. Hän haluaa seurata mitalilion tasojen parhaita käytäntöjä pronssilla, hopealla ja kullalla. Leolla ei ole kokemusta Sparkistä, joten hän suosii mahdollisimman paljon vetämisen ja pudottamisen käyttöliittymää mahdollisimman pienellä koodaamisella. Lisäksi hän haluaa käsitellä tiedot aikataulun mukaisesti.

Ensimmäinen vaihe on raakadatan vieminen pronssikerroksen lakehouseen Azuren tietoresursseista ja useista kolmannen osapuolen lähteistä (kuten Snowflake Web, REST, AWS S3, GCS jne.). Hän haluaa yhdistetyn lakehousen, jotta kaikki tiedot eri LOB: stä, paikallisista ja pilvilähteistä sijaitsevat yhdessä paikassa. Leo arvioi vaihtoehdot ja valitsee jakson kopiointitoiminnon sopivaksi vaihtoehdoksi hänen raaka binaarikopiolleen. Tämä malli koskee sekä historiallista että lisäävää tietojen päivitystä. Kopiointitoiminnon avulla Leo voi ladata Kulta-tiedot tietovarastoon ilman koodia, jos tarve tulee esiin, ja jaksot tarjoavat suuren mittakaavan tietojen käsittelytoimintoja, jotka voivat siirtää petatavuskaavan mittakaavan tietoja. Kopiointitoiminto on paras vähäkoodinen ja koodittomuusvalinta, kun haluat siirtää petatavuja tietoa lakehouseihin ja varastoihin lähdelajikkeista joko ad hoc- tai aikataulun mukaan.

Skenaario2

Mary on tietoteknikko, jolla on syvällinen tietämys lob-analytiikkavaatimuksista. Yläpuolinen ryhmä on onnistuneesti ottanut käyttöön ratkaisun useiden LOB:n historiallisten ja lisäävien tietojen siirtämiseksi yhteiseen Lakehouseen. Maryn tehtävänä on siistiä tietoja, soveltaa liiketoimintalogiikkaa ja ladata ne useisiin kohteisiin (kuten Azure SQL -tietokantaan, ADX:ään ja Lakehouseen) valmistautuessaan vastaaviin raportointitiimeihin.

Mary on kokenut Power Query -käyttäjä, ja tietojen määrä on matalalla tai keskitasoisella alueella halutun suorituskyvyn saavuttamiseksi. Tietovuot tarjoavat koodittomuus rajapintoja tai vähäisen koodin rajapintoja, joiden avulla voit käsitellä tietoja sadoista tietolähteistä. Tietovoiden avulla voit muuntaa tietoja käyttämällä yli 300 tietojen muunnosvaihtoehtoa ja kirjoittaa tulokset useisiin kohteisiin helppokäyttöisen ja erittäin visuaalisen käyttöliittymän avulla. Marja arvioi vaihtoehdot ja päättää, että on järkevää käyttää Dataflow Gen 2 suosimakseen muunnosvaihtoehdoksi.

Skenaario 3

Adam on tietoteknikko, joka työskentelee suuressa jälleenmyyntiyrityksessä, joka käyttää Lakehousea asiakastietojensa tallentamiseen ja analysointiin. Adam on osana työtään vastuussa dataputkien rakentamisesta ja ylläpidosta, jotka poimivat, muuntavat ja lataavat tietoja Lakehouseen. Yksi yrityksen liiketoimintavaatimuksista on asiakkaan arviointianalytiikan suorittaminen, jotta saadaan merkityksellisiä tietoja asiakkaiden kokemuksista ja heidän palvelujensa parantamisesta.

Adam päättää, että paras vaihtoehto on käyttää Spark poiminta- ja muunnoslogiikan luomiseen. Spark tarjoaa hajautetun tietojenkäsittelyympäristön, joka voi käsitellä suuria tietomääriä rinnakkain. Hän kirjoittaa Spark-sovelluksen käyttämällä Pythonia tai Scalaa. Siinä lukee OneLakesta jäsennettyjä, puolirakenteisia ja jäsentämättömiä tietoja asiakastarkastuksia ja palautetta varten. Sovellus puhdistaa, muuntaa ja kirjoittaa tietoa Lakehousen Delta-taulukoihin. Tiedot ovat sitten valmiita käytettäviksi jatkoanalytiikkaan.