Gegevens analyseren in een opslagaccount
In deze zelfstudie leert u hoe u gegevens kunt analyseren die zich in een opslagaccount bevinden.
Overzicht
Tot nu toe zijn scenario's beschreven waarin gegevens in databases staan die zijn opgenomen in de werkruimte. U leert nu werken met bestanden in opslagaccounts. In dit scenario wordt het primaire opslagaccount van de werkruimte en de container die we hebben opgegeven bij het maken van de werkruimte gebruikt.
- De naam van het opslagaccount: contosolake
- De naam van de container in het opslagaccount: users
CSV- en Parquet-bestanden maken in uw opslagaccount
Voer de volgende code uit in een notebook in een nieuwe codecel. Er wordt een CSV-bestand en een Parquet-bestand gemaakt in het opslagaccount.
Tip
Deze tabel is eerder in de quickstart gemaakt en u vindt de stappen hier.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
Gegevens analyseren in een opslagaccount
U kunt de gegevens in uw werkruimte standaardaccount van Azure Data Lake Storage (ADLS) Gen2 analyseren of u kunt een ADLS Gen2- of Blob Storage-account koppelen aan uw werkruimte via 'Manage' > 'Linked Services' > 'New' (de volgende stappen verwijzen naar het primaire ADLS Gen2-account).
Ga in Synapse Studio naar de hub Gegevens en selecteer vervolgens Gekoppeld.
Ga naar Azure Data Lake Storage Gen2>myworkspace (primair - contosolake).a0>
Selecteer users (Primary). De map NYCTaxi moet worden weergegeven. Hierin ziet u twee mappen, PassengerCountStats_csvformat en PassengerCountStats_parquetformat.
Open de map PassengerCountStats_parquetformat. Binnen is er een Parquet-bestand met een naam zoals
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet
.Klik met de rechtermuisknop op PARQUET en selecteer Vervolgens Nieuw notitieblok en selecteer Laden naar DataFrame. Er wordt een nieuw notitieblok gemaakt met een cel als volgt:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))
Koppel deze aan de Spark-pool met de naam Spark1. Voer de cel uit. Als er een fout optreedt met betrekking tot het ontbreken van kernen, kan een andere sessie deze Spark-pool in deze Spark-pool gebruiken. Alle bestaande sessies annuleren en het opnieuw proberen.
Selecteer terug naar de gebruikersmap . Klik opnieuw met de rechtermuisknop op het PARQUET-bestand en selecteer vervolgens New SQL script>SELECT TOP 100 rijen. Er wordt een SQL-script als deze gemaakt:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]
Controleer in het scriptvenster of het veld Verbinding maken is ingesteld op de ingebouwde serverloze SQL-pool .
Voer het script uit.