Jaa


Taulukoiden ylläpitotoiminnon käyttö Delta-taulukoiden hallintaan Fabricissa

Microsoft Fabricin Lakehouse tarjoaa taulukon ylläpito-ominaisuuden, jonka avulla voit hallita tehokkaasti delta-taulukoita ja pitää ne aina valmiina analysointia varten. Tässä oppaassa kuvataan Lakehousen taulukon ylläpitoominaisuus ja sen ominaisuudet.

Lakehouse-taulukon ylläpito-ominaisuuden tärkeimmät ominaisuudet:

  • Tee ad-hoc-taulukoiden ylläpito käyttämällä tilannekohtaisia hiiren kakkospainikkeen toimintoja Lakehouse Explorerin delta-taulukossa.
  • Käytä lokeron kompaktin, V-tilauksen ja kirjaamattomien vanhojen tiedostojen puhdistusta.

Muistiinpano

Kehittyneissä ylläpitotehtävissä, kuten useiden taulukoiden ylläpitokomentojen ryhmittelyssä ja sen järjestämisessä aikataulun mukaan, suosittelemme, että käytössä on koodikeskeinen lähestymistapa. Lisätietoja on artikkelissa Delta Lake -taulukon optimointi ja V-järjestys . Lakehouse-ohjelmointirajapintaa on mahdollista käyttää myös taulukoiden ylläpidon automatisoinnissa. Lisätietoja on artikkelissa Lakehousen hallinta Microsoft Fabric REST -ohjelmointirajapinnalla.

Tuetut tiedostotyypit

Lakehouse-taulukon ylläpito koskee vain Delta Lake -taulukoita. Vanhoja Hive-taulukoita, jotka käyttävät PARQUET-, ORC-, AVRO-, CSV- ja muita muotoja, ei tueta.

Taulukkojen ylläpitotoimet

Taulukon ylläpito-ominaisuus tarjoaa kolme toimintoa.

  • Optimoi: kokoaa useita pieniä Parquet-tiedostoja suuriksi tiedostoiksi. Massadatan käsittelykoneet ja kaikki Fabric-moottorit hyötyvät suuremmista tiedostoko'oista. Kun tiedostokoko on yli 128 Mt ja optimaalisesti lähes 1 Gt, se parantaa pakkaamista ja tietojen jakelua klusterisolmuissa. Se vähentää useiden pienten tiedostojen skannaamista tehokkaiden lukutoimintojen varmistamiseksi. Optimointistrategioiden suorittaminen suurten taulukoiden lataamisen jälkeen on yleinen paras käytäntö.
  • V-Order: Käyttää optimoituja lajittelu-, koodaus- ja pakkaustoimintoja Delta-parquet-tiedostoihin, jotta nopeita lukutoimintoja voidaan käyttää kaikissa Fabric-moottoreissa. V-järjestys tapahtuu Optimoi-komennon aikana, ja se esitetään komentoryhmälle käyttäjänä. Lisätietoja V-Orderista on kohdassa Delta Lake -taulukon optimointi ja V-järjestys.
  • Tyhjiö: poistaa vanhat tiedostot, joihin Delta-taulukkoloki ei enää viittaa. Tiedostojen on oltava säilytyskynnystä vanhempia ja tiedoston säilytyskynnysarvon on oltava seitsemän päivää. Kaikilla OneLaken delta-taulukoilla on sama säilytysaika. Tiedostojen säilytysaika on sama käyttämästäsi Fabric-käsittelymoduulista riippumatta. Tämä ylläpito on tärkeää tallennuskustannusten optimoinnissa. Lyhyemmän säilytysajan asettaminen vaikuttaa Deltan aikamatkustusominaisuuksiin. Yleensä on parasta määrittää säilytysväliksi vähintään seitsemän päivää, koska samanaikaiset taulukon lukijat ja kirjoittajat voivat edelleen käyttää vanhoja tilannevedoksia ja sitomattomia tiedostoja. Aktiivisten tiedostojen puhdistaminen VACUUM-komennolla voi johtaa lukuvirheisiin tai jopa taulukon vioittumiseen, jos sitomattomat tiedostot poistetaan.

Suorita ad-hoc-taulukoiden ylläpito Delta-taulukolle Lakehousen avulla

Ominaisuuden käyttäminen:

  1. Siirry Microsoft Fabric -tililtäsi haluamaasi Lakehouseen.

  2. Lakehouse Explorerin Taulukot-osiossa voit joko napsauttaa taulukkoa hiiren kakkospainikkeella tai avata pikavalikon käyttämällä kolmea pistettä.

  3. Valitse Ylläpito-valikkomerkintä.

  4. Tarkista valintaikkunan ylläpitovaihtoehdot vaatimustasi kohden. Lisätietoja on tämän artikkelin osiossa Taulukon ylläpitotoimet .

  5. Suorita taulukon ylläpitotyö valitsemalla Suorita nyt .

  6. Seuraa ylläpitotöiden suorittamista ilmoitusruudun tai valvontakeskuksen avulla.

    Näyttökuva, jossa näkyy taulukoihin lataaminen -valintaikkuna, jossa on täytetty taulukon nimi.

Miten taulukoiden ylläpito toimii?

Kun Suorita nyt on valittuna, Spark-ylläpitotyö lähetetään suoritettavaksi.

  1. Spark-työ lähetetään käyttämällä käyttäjätietojen ja taulukon käyttöoikeuksia.
  2. Spark-työ käyttää työn lähettäneen työtilan/käyttäjän Fabric-kapasiteettia.
  3. Jos taulukossa on käynnissä toinen ylläpitotyö, uusi työntö hylätään.
  4. Eri taulukoiden töitä voidaan suorittaa rinnakkain.
  5. Taulukon ylläpitotöitä voi helposti seurata valvontakeskuksessa. Etsi "Taulukkotunnistus"-teksti valvontakeskuksen pääsivun toiminnon nimen sarakkeesta.