Lakehouse- ja Delta Lake -taulukot
Microsoft Fabric Lakehouse on tietojen arkkitehtuuriympäristö, jolla voidaan tallentaa, hallita ja analysoida jäsennettyjä ja jäsentämättömiä tietoja yhdessä sijainnissa. Delta Lake valitaan yhtenäiseksi taulukkomuodoksi, jotta tietoihin saadaan saumaton pääsy kaikissa Microsoft Fabricin käsittelymoottoreissa.
Kun tallennat tietoja Lakehousessa käyttämällä toimintoja, kuten Lataa taulukoihin tai menetelmiä, jotka on kuvattu kohdassa Asetukset tietojen saamiseksi Fabric Lakehouseen, kaikki tiedot tallennetaan Delta-muodossa.
Kattavampi johdanto Delta Lake -taulukkomuotoon on Seuraavissa vaiheissa -osion linkkien kautta.
Massadata, Apache Spark ja vanhat taulukkomuodot
Microsoft Fabric Runtime for Apache Spark käyttää samaa perustaa kuin Azure Synapse Analytics Runtime for Apache Spark, mutta sen sisältämät tärkeät erot takaavat entistä virtaviivaistetun toiminnan kaikissa Microsoft Fabric -palvelun moottoreissa. Microsoft Fabricissa suorituskykyominaisuudet ovat oletusarvoisesti käytössä. Kehittyneet Apache Spark -käyttäjät voivat palauttaa määrityksiä aiempiin arvoihin vastaamaan paremmin tiettyjä skenaarioita.
Microsoft Fabric Lakehouse ja Apache Spark -moottori tukevat kaikkia taulukkotyyppejä, sekä hallittuja että hallitsemattomia; Tämä sisältää näkymät ja tavalliset muut kuin Delta Hive -taulukkomuodot. Taulukot, jotka on määritetty käyttämällä PARQUET-, CSV-, AVRO-, JSON- ja mitä tahansa Apache Hive -yhteensopivaa tiedostomuotoa, toimivat odotetulla tavalla.
Lakehouse Explorerin käyttöliittymän käyttökokemus vaihtelee taulukkotyypin mukaan. Tällä hetkellä Lakehousen tutkimuslaitos hahmontaa vain taulukko-objektit.
määrityserot Azure Synapse Analyticsin avulla
Seuraavassa taulukossa on Azure Synapse Analyticsin ja Microsoft Fabric Runtime for Apache Sparkin määrityserot.
Apache Spark -määritys | Microsoft Fabric -arvo | Azure Synapse Analytics -arvo | Muistiinpanot |
---|---|---|---|
spark.sql.sources.default | delta | parketti | Oletustaulukkomuoto |
spark.sql.parquet.vorder.enabled | true | – | V-Order-kirjoittaja |
spark.sql.parquet.vorder.dictionaryPageSize | 2 Gt | – | Sanaston sivun kokorajoitus V-järjestykselle |
spark.microsoft.delta.optimizeWrite.enabled | true | unset (false) | Optimoi kirjoitus |
Taulukoiden automaattinen etsiminen
Lakehouse Explorer tarjoaa puumaisen näkymän Microsoft Fabric Lakehouse -kohteen objekteihin. Sillä on tärkeä ominaisuus löytää ja näyttää metatietosäilössä ja OneLake-tallennustilassa kuvattuja taulukoita. Taulukkoviittaukset näkyvät Tables
Lakehouse Explorerin käyttöliittymän -osassa. Automaattinen etsintä koskee myös taulukoita, jotka on määritetty OneLake-pikakuvakkeiden avulla.
Taulukot pikakuvakkeiden päällä
Microsoft Fabric Lakehouse tukee OneLake-pikakuvakkeiden kautta määritettyjä taulukoita. Se tarjoaa äärimmäisen yhteensopivuuden ilman tietojen siirtämistä. Seuraavassa taulukossa on skenaarion parhaat käytännöt kullekin kohdetyypille, kun sitä käytetään pikakuvakkeiden kautta.
Pikakuvakkeen kohde | Pikakuvakkeen luontipaikka | Parhaat käytännöt |
---|---|---|
Delta Lake -taulukko | Tables osa |
Jos kohdesijainnissa on useita taulukoita, luo yksi pikakuvake taulukkoa kohti. |
Tiedostoja sisältäviä kansioita | Files osa |
Käytä Apache Sparkiä, jos haluat käyttää kohdetta suoraan suhteellisia polkuja käyttämällä. Lataa tiedot Lakehousen alkuperäisiin Delta-taulukoihin, jotta suorituskyky on mahdollisimman suuri. |
Vanhat Apache Hive -taulukot | Files osa |
Käytä Apache Sparkiä, jos haluat käyttää kohdetta suoraan suhteellisia polkuja käyttämällä tai luoda metatietoluetteloviittauksen syntaksin avulla CREATE EXTERNAL TABLE . Lataa tiedot Lakehousen alkuperäisiin Delta-taulukoihin, jotta suorituskyky on mahdollisimman suuri. |
Lataa taulukoihin
Microsoft Fabric Lakehouse tarjoaa kätevän ja tuottavan käyttöliittymän, jonka avulla voit tehostaa tietojen lataamista Delta-taulukoihin. Lataa taulukoihin -ominaisuuden avulla visualisointikokemukset voivat ladata yleisiä tiedostomuotoja Deltaan, mikä tehostaa analyyttista tuottavuutta kaikille persoonaille. Jos haluat lisätietoja Lataa taulukoihin -ominaisuudesta tarkemmin , lue Lakehouse Load to Tables - viitedokumentaatio.
Delta Lake -taulukon optimointi
Taulukoiden pitäminen kunnossa analytiikkaskenaarioiden laajaa käyttöaluetta varten ei ole vähäinen saavutus. Microsoft Fabric Lakehouse mahdollistaa ennakoivasti tärkeät parametrit, jotta voidaan minimoida massadatataulukoihin liittyvät yhteiset ongelmat, kuten tiivistys ja pienet tiedostokoot, sekä maksimoida kyselyjen suorituskyky. On kuitenkin monia tilanteita, joissa nämä parametrit tarvitsevat muutoksia. Delta Lake - taulukon optimointi ja V-Order-artikkeli kattaa joitakin keskeisiä skenaarioita ja tarjoaa perusteellisemman oppaan siihen, miten voit ylläpitää tehokkaasti Delta-taulukoita suorituskyvyn parantamiseksi.