Microsoft Fabric -päätöksenteko-opas: valitse tietosäilö
Tämän viiteoppaan ja esimerkkiskenaarioiden avulla voit valita tietosäilön Microsoft Fabric -kuormituksia varten.
Tietosäilön ominaisuudet
Näiden tietojen avulla voit verrata Fabric-tietosäilöjä, kuten varastoa, Lakehousea, Eventhousea, SQL-tietokantaa ja Power BI -tietomarttia, tietojen määrän, tyypin, kehittäjän henkilön, taitojoukon, toimintojen ja muiden ominaisuuksien perusteella. Nämä vertailut on järjestetty seuraaviin kahteen taulukkoon:
Lakehouse | Varasto | Eventhouse | |
---|---|---|---|
Tietojen määrä | Ei rajoitettu | Ei rajoitettu | Ei rajoitettu |
Tietojen tyyppi | Järjestymätön osittain jäsennetty, jäsennetty |
Jäsennetty puolirakenteinen (JSON) |
Järjestymätön osittain jäsennetty, jäsennetty |
Ensisijainen kehittäjäpersona | Tietoteknikko, datatieteilijä | Tietovaraston kehittäjä, tietoarkkitehti, tietoteknikko, tietokantakehittäjä | Sovelluskehittäjä, datatieteilijä, tietoteknikko |
Ensisijainen kehitystaito | Spark (Scala, PySpark, Spark SQL, R) | SQL | Ei koodia, KQL, SQL |
Tiedot järjestetty | Kansiot ja tiedostot, tietokannat ja taulukot | Tietokannat, rakenteet ja taulukot | Tietokannat, rakenteet ja taulukot |
Lukutoiminnot | Spark, T-SQL | T-SQL, Spark* | KQL, T-SQL, Spark |
Kirjoitustoiminnot | Spark (Scala, PySpark, Spark SQL, R) | T-SQL | KQL-, Spark-, liitinekosysteemi |
Usean taulukon tapahtumat | Ei | Kyllä | Kyllä, usean taulukon käsittelylle |
Ensisijainen kehitysliittymä | Spark-muistikirjat, Spark-työmääritykset | SQL-komentosarjat | KQL-kyselyjoukko, KQL-tietokanta |
Suojaus | RLS, CLS**, taulukkotaso (T-SQL), ei mitään Sparkille | Objektitaso, RLS, CLS, DDL/DML, dynaaminen tietojen peittäminen | RLS |
Tietojen käyttäminen pikanäppäimillä | Kyllä | Kyllä | Kyllä |
Voi olla pikakuvakkeiden lähde | Kyllä (tiedostot ja taulukot) | Kyllä (taulukot) | Kyllä |
Kysely kohteista | Kyllä | Kyllä | Kyllä |
Kehittynyt analytiikka | Käyttöliittymä suuren mittakaavan tietojen käsittelyyn, sisäiseen tietojen rinnakkaisuuteen ja vikasietoisuuteen | Käyttöliittymä suuren mittakaavan tietojen käsittelyyn, sisäiseen tietojen rinnakkaisuuteen ja vikasietoisuuteen | Aikasarjan alkuperäiset elementit, täydet sijainti- ja kyselytoiminnot |
Muotoilun lisätuki | Taulukot, jotka on määritetty käyttämällä PARQUET-, CSV-, AVRO-, JSON- ja mitä tahansa yhteensopivaa Apache Hive -yhteensopivaa tiedostomuotoa | Taulukot, jotka on määritetty käyttämällä PARQUET-, CSV-, AVRO-, JSON- ja mitä tahansa yhteensopivaa Apache Hive -yhteensopivaa tiedostomuotoa | Täysi indeksointi maksuttomalle tekstille ja puolirakenteisille tiedoille, kuten JSON |
Käsittelyviive | Käytettävissä heti kyselyä varten | Käytettävissä heti kyselyä varten | Jonossa oleva käsittely, suoratoiston käsittely on muutaman sekunnin viive |
* Spark tukee taulukoiden lukemista pikakuvakkeiden avulla. Se ei vielä tue näkymien, tallennettujen toimintosarjojen ja funktioiden käyttöä.
Fabric SQL -tietokanta | Power BI -tietomarssi | |
---|---|---|
Tietojen määrä | 4 Tt | Enintään 100 Gt |
Tietojen tyyppi | Jäsennetty osittain jäsennetty, järjestymätön |
Jäsennetty |
Ensisijainen kehittäjäpersona | Tekoälykehittäjä, sovelluskehittäjä, tietokantakehittäjä, DB-järjestelmänvalvoja | Tietotutkija, tietoanalyytikko |
Ensisijainen kehitystaito | SQL | Ei koodia, SQL |
Tiedot järjestetty | Tietokannat, rakenteet, taulukot | Tietokanta, taulukot, kyselyt |
Lukutoiminnot | T-SQL | Spark, T-SQL |
Kirjoitustoiminnot | T-SQL | Tietovuot, T-SQL |
Usean taulukon tapahtumat | Kyllä, täysi acid-yhteensopivuus | Ei |
Ensisijainen kehitysliittymä | SQL-komentosarjat | Power BI |
Suojaus | Objektitaso, RLS, CLS, DDL/DML, dynaaminen tietojen peittäminen | Sisäinen RLS-editori |
Tietojen käyttäminen pikanäppäimillä | Kyllä | Ei |
Voi olla pikakuvakkeiden lähde | Kyllä (taulukot) | Ei |
Kysely kohteista | Kyllä | Ei |
Kehittynyt analytiikka | T-SQL-analyyttiset ominaisuudet, analytiikkaa varten replikoidut tiedot Delta-parquetiin OneLakessa | Käyttöliittymä tietojen käsittelyä varten automatisoidulla suorituskyvyn säätöllä |
Muotoilun lisätuki | TAULUKKOtuki OLTP-, JSON-, vektori-, kaavio-, XML-, spatiaalisille, avain-arvoille | Taulukot, jotka on määritetty käyttämällä PARQUET-, CSV-, AVRO-, JSON- ja mitä tahansa yhteensopivaa Apache Hive -yhteensopivaa tiedostomuotoa |
Käsittelyviive | Käytettävissä heti kyselyä varten | Käytettävissä heti kyselyä varten |
** Lakehousessa käytettävissä oleva saraketason suojaus SQL-analytiikan päätepisteen kautta T-SQL:n avulla.
Skenaariot
Tutustu näihin skenaarioihin, joiden avulla voit valita tietosäilön Fabricissa.
Tilanne 1
Ammattikehittäjä Susan on Microsoft Fabricin uusi käyttäjä. Ne ovat valmiita aloittamaan tietojen puhdistamisen, mallinnuksen ja analysoinnin, mutta niiden on päätettävä tietovaraston tai lakehousen rakentamisesta. Edellisen taulukon tietojen tarkastelun jälkeen ensisijaiset päätöspisteet ovat käytettävissä oleva taitojoukko ja tarve monitaulukkoisille tapahtumille.
Susan on monien vuosien ajan luonut tietovarastoja relaatiotietokantamoottoreille, ja hän tuntee SQL-syntaksin ja toiminnallisuuden. Kun ajattelet suurempaa tiimiä, näiden tietojen pääkuluttajat ovat myös SQL- ja SQL-analyysityökalujen osaamista. Susan päättää käyttää Fabric-varastoa, jonka avulla tiimi voi käyttää ensisijaisesti T-SQL:ää ja samalla antaa organisaation Spark-käyttäjille pääsyn tietoihin.
Susan luo uuden tietovaraston ja käyttää sitä samalla tavalla kuin muita SQL-palvelintietokantoja. Suurin osa olemassa olevasta T-SQL-koodista, jonka hän on kirjoittanut varastonsa luomiseen SQL Serverissä, toimii Fabric-tietovarastossa, mikä helpottaa siirtymistä. Halutessaan hän voi käyttää myös samoja työkaluja, jotka toimivat hänen muiden tietokantojensa kanssa, kuten SQL Server Management Studiota. Kun Susan ja muut tiimin jäsenet käyttävät SQL-editoria Fabric-portaalissa, he kirjoittavat analytiikkakyselyjä, jotka viittaavat muihin tietovarastoihin ja Lakehousen Delta-taulukoihin, vain käyttämällä kolmiosaisia nimiä tietokantakyselyjen suorittamiseen.
Tilanne 2
Tietoteknikko Rob tallentaa ja mallintaa useita teratavuja tietoja Fabricissa. Tiimissä on sekä PySpark- että T-SQL-taitoja. Suurin osa T-SQL-kyselyitä suorittavasta tiimistä on kuluttajia, joten heidän ei tarvitse kirjoittaa INSERT-, UPDATE- tai DELETE-lausekkeita. Jäljellä olevat kehittäjät työskentelevät mielellään muistikirjoissa, ja koska tiedot on tallennettu Delta-kohteeseen, he voivat käyttää samankaltaista SQL-syntaksia.
Rob päättää käyttää Lakehousea, jolloin tietotekniikkatiimi voi käyttää monipuolisia taitojaan tietojen kanssa ja antaa T-SQL:n erittäin taitavien tiimin jäsenten käyttää tietoja.
Skenaario 3
Citizen Developer, Ash on Power BI -kehittäjä. Excel, Power BI ja Office ovat heille tuttuja. Heidän on luotava tietotuote liiketoimintayksikölle. He tietävät, ettei heillä ole aivan taitoja rakentaa tietovarastoa tai lakehousea, ja ne vaikuttavat liikaa heidän tarpeisiinsa ja tietomääriinsä. He tarkastelevat edellisen taulukon tietoja ja huomaavat, että ensisijaiset päätöspisteet ovat heidän omat taitonsa ja tarve omatoimiseen palveluun, ei koodiominaisuutta ja alle 100 gigatavun tietojen määrä.
Ash työskentelee Power BI:hin ja Microsoft Officeen perehtyneiden yritysanalyytikoiden kanssa ja tietää, että heillä on jo Premium-kapasiteettitilaus. Kun he ajattelevat suurempaa tiimiään, he tajuavat, että näiden tietojen pääkuluttajat ovat analyytikoita, jotka tuntevat koodittomuustyökalut ja SQL-analyysityökalut. Ash päättää käyttää Power BI -tietomarssia, jonka avulla tiimi voi kehittää ominaisuutta nopeasti ilman koodaamista. Kyselyt voidaan suorittaa Power BI:n ja T-SQL:n kautta. Samalla kuka tahansa organisaation Spark-käyttäjä voi käyttää myös tietoja.
Skenaario 4
Daisy on yritysanalyytikko, joka on käyttänyt Power BI:tä toimitusketjun pullonkaulojen analysointiin suuressa globaalissa jälleenmyyntiketjussa. Heidän on luotava skaalattava tietoratkaisu, joka pystyy käsittelemään miljardeja tietorivejä ja jonka avulla voidaan luoda koontinäyttöjä ja raportteja, joita voidaan käyttää liiketoimintapäätösten tekemiseen. Tiedot ovat peräisin toimipisteistä, toimittajista, lähettäjistä ja muista lähteistä erilaisissa jäsennettyissä, puolirakenteisissa ja jäsentämättömissä muodoissa.
Daisy päättää käyttää Eventhousea skaalattavuuden, nopeiden vasteaikojen, kehittyneiden analytiikkaominaisuuksien, kuten aikasarja-analyysin, geospatiaalisten funktioiden ja Power BI:n nopean suoran kyselytilan, vuoksi. Kyselyitä voidaan suorittaa Power BI:n ja KQL:n avulla nykyisten ja aiempien jaksojen vertailuun, uusien ongelmien nopeaan tunnistamiseen tai maa- ja merireittien sijaintikohtaiseen analysointiin.
Skenaario 5
Kirby on sovellusarkkitehti, jolla on kokemusta .NET-toimintatietojen sovellusten kehittämisestä. He tarvitsevat suuren samanaikaisuuden tietokannan, jossa on täydet ACID-tapahtumien yhteensopivuuden vaatimukset, ja voimakkaasti pakotetut viiteavaimet relaatio-eheyden varmistamiseksi. Kirby haluaa, että automaattinen suorituskyvyn säätö yksinkertaistaa päivittäistä tietokantojen hallintaa.
Kirby päättää SQL-tietokannasta Fabricissa, jossa on sama SQL-tietokantamoduuli kuin Azure SQL -tietokannassa. Fabricin SQL-tietokannat skaalautuvat automaattisesti vastaamaan kysyntään koko työpäivän ajan. Niillä on tapahtumataulukoiden täysi ominaisuus ja tapahtumien eristystasojen joustavuus sarjoitettavasta sitoutuneen tilannevedoksen lukemiseen. Fabricin SQL-tietokanta luo ja pudottaa automaattisesti indeksejä, jotka eivät ole sisältäneet, ajan mittaan havaittujen suoritussuunnitelmien vahvojen signaalien perusteella.
Kirbyn skenaariossa toimintasovelluksen dataan on liityttävä Fabricissa muiden tietojen kanssa: Sparkissä, varastossa ja reaaliaikaisista tapahtumista Eventhousessa. Jokainen Fabric-tietokanta sisältää SQL-analytiikan päätepisteen, joten tietoja voidaan käyttää reaaliaikaisesti Sparkistä tai Power BI -kyselyistä DirectLake-tilaa käyttämällä. Nämä raportointiratkaisut säästävät ensisijaisen toiminnallisen tietokannan analyyttisten kuormitusten kuormitukselta ja vältävät denormalisoinnin. Kirbyllä on myös olemassa operatiivisia tietoja muissa SQL-tietokannoissa, ja hänen on tuotava tiedot muuntamatta niitä. Kirby suunnittelee Fabric Data Factorylla tietoputkia tuodakseen olemassa olevia operatiivisia tietoja ilman tietotyyppimuunnosta.