Ohjeet: Azure Cosmos DB -tietojen käyttäminen Lakehousessa ja Microsoft Fabricin muistikirjoissa (esikatselu)
Tässä oppaassa opit käyttämään Azure Cosmos DB -tietoja Lakehousessa ja muistikirjoja Microsoft Fabricista (esikatselu).
Tärkeä
Azure Cosmos DB:n peilaus on tällä hetkellä esikatselussa. Tuotannon kuormituksia ei tueta esikatselun aikana. Tällä hetkellä tuetaan vain Azure Cosmos DB for NoSQL -tilejä.
Edellytykset
- Olemassa oleva Azure Cosmos DB for NoSQL -tili.
- Jos sinulla ei ole Azure-tilausta, kokeile ilmaista Azure Cosmos DB for NoSQL:ää.
- Jos sinulla on aiemmin luotu Azure-tilaus, luo uusi Azure Cosmos DB for NoSQL -tili.
- Olemassa oleva Fabric-kapasiteetti. Jos sinulla ei ole aiemmin luotua kapasiteettia, aloita Fabric-kokeiluversio.
- Azure Cosmos DB for NoSQL -tili on määritettävä Fabric-peilausta varten. Katso lisätietoja kohdasta Tilivaatimukset.
Vihje
Julkisen esikatselun aikana on suositeltavaa käyttää olemassa olevien Azure Cosmos DB -tietojen testi- tai kehityskopiota, joka voidaan palauttaa nopeasti varmuuskopiosta.
Määritä peilaus ja edellytykset
Määritä peilaus Azure Cosmos DB for NoSQL -tietokannalle. Jos et ole varma peilauksen määrittämisestä, katso opit määrittämään peilatun tietokannan opetusohjelman.
Luo uusi yhteys ja peilattu tietokanta Azure Cosmos DB -tilisi tunnistetiedoilla.
Odota, että replikointi viimeistelee tietojen ensimmäisen tilannevedoksen.
Käytä peilattuja tietoja Lakehousessa ja muistikirjoissa
Lakehousen avulla voit edelleen laajentaa niiden työkalujen määrää, joiden avulla voit analysoida Azure Cosmos DB for NoSQL -peilattuja tietoja. Tässä luot Lakehousen avulla Spark-muistikirjan tietoihisi kyselyn varten.
Siirry taas Fabric-portaalin aloitussivulle.
Valitse siirtymisvalikon Luo-kohta.
Valitse Luo, etsi Tietotekniikka-osio ja valitse sitten Lakehouse.
Anna Lakehouse-nimi ja valitse sitten Luo.
Valitse nyt Nouda tiedot ja sitten Uusi pikakuvake. Valitse pikakuvakevalintojen luettelosta Microsoft OneLake.
Valitse peilattu Azure Cosmos DB for NoSQL -tietokanta Fabric-työtilasi peilattujen tietokantojen luettelosta. Valitse Lakehousessa käytettävät taulukot, valitse Seuraava ja valitse sitten Luo.
Avaa Lakehousessa olevan taulukon pikavalikko ja valitse Uusi tai olemassa oleva muistikirja.
Uusi muistikirja avautuu automaattisesti ja lataa tietokehyksen käyttämällä .-toimintoa
SELECT LIMIT 1000
.Suorita kyselyitä, kuten
SELECT *
Sparkin avulla.df = spark.sql("SELECT * FROM Lakehouse.OrdersDB_customers LIMIT 1000") display(df)
Muistiinpano
Tässä esimerkissä oletetaan taulukon nimi. Käytä omaa taulukkoasi, kun kirjoitat Spark-kyselyäsi.
Takaisin kirjoittaminen Sparkin avulla
Lopuksi voit käyttää Spark- ja Python-koodia tietojen kirjoittamiseen takaisin lähteeseen Azure Cosmos DB -tilillesi Fabric-muistikirjoista. Haluat ehkä tehdä tämän kirjoittaaksesi analyyttiset tulokset takaisin Cosmos DB:hen, jota voidaan sitten käyttää OLTP-sovellusten palvelevana koneena.
Luo muistikirjaan neljä koodisolua.
Tee ensin kysely peilatuille tiedoille.
fMirror = spark.sql("SELECT * FROM Lakehouse1.OrdersDB_ordercatalog")
Vihje
Näiden mallikoodilohkojen taulukon nimissä oletetaan olevan tietty tietorakenne. Voit korvata sen omilla taulukon ja sarakkeiden nimillä.
Muunna ja koosta tiedot.
dfCDB = dfMirror.filter(dfMirror.categoryId.isNotNull()).groupBy("categoryId").agg(max("price").alias("max_price"), max("id").alias("id"))
Määritä seuraavaksi Spark kirjoittamaan takaisin Azure Cosmos DB for NoSQL -tilillesi tunnistetiedoilla, tietokannan nimellä ja säilön nimellä.
writeConfig = { "spark.cosmos.accountEndpoint" : "https://xxxx.documents.azure.com:443/", "spark.cosmos.accountKey" : "xxxx", "spark.cosmos.database" : "xxxx", "spark.cosmos.container" : "xxxx" }
Palaa lopuksi lähdetietokantaan Sparkin avulla.
dfCDB.write.mode("APPEND").format("cosmos.oltp").options(**writeConfig).save()
Suorita kaikki koodisolut.
Tärkeä
Azure Cosmos DB:n kirjoitustoiminnot kuluttavat pyyntöyksiköitä.