Načtení dat pro zkoumání
Načítání a zkoumání dat jsou prvními kroky v jakémkoli projektu datových věd. Zahrnují pochopení struktury, obsahu a zdroje dat, které jsou pro následnou analýzu zásadní.
Po připojení ke zdroji dat můžete data uložit do Microsoft Fabric Lakehouse. Jezero můžete použít jako centrální umístění k ukládání jakýchkoli strukturovaných, částečně strukturovaných a nestrukturovaných souborů. Kdykoli budete chtít získat přístup k datům pro průzkum nebo transformaci, můžete se snadno připojit k jezeru.
Načtení dat pomocí poznámkových bloků
Poznámkové bloky v Microsoft Fabric usnadňují zpracování datových prostředků. Jakmile se datové prostředky nacházejí v jezeře, můžete snadno vygenerovat kód v poznámkovém bloku, který tyto prostředky ingestuje.
Představte si scénář, ve kterém už datový inženýr transformoval zákaznická data a uložil je do jezera. Datový vědec může data snadno načíst pomocí poznámkových bloků k dalšímu zkoumání a vytvoření modelu strojového učení. To umožňuje okamžitě začít pracovat, ať už zahrnuje další manipulace s daty, průzkumnou analýzu dat nebo vývoj modelů.
Pojďme vytvořit ukázkový soubor parquet, který ilustruje operaci načítání. Následující kód PySpark vytvoří datový rámec zákaznických dat a zapíše ho do souboru Parquet v jezeře.
Apache Parquet je opensourcový formát úložiště dat orientovaný na sloupce. Je navržená pro efektivní ukládání a načítání dat a je známá kvůli vysokému výkonu a kompatibilitě s mnoha architekturami pro zpracování dat.
from pyspark.sql import Row
Customer = Row("firstName", "lastName", "email", "loyaltyPoints")
customer_1 = Customer('John', 'Smith', 'john.smith@contoso.com', 15)
customer_2 = Customer('Anna', 'Miller', 'anna.miller@contoso.com', 65)
customer_3 = Customer('Sam', 'Walters', 'sam@contoso.com', 6)
customer_4 = Customer('Mark', 'Duffy', 'mark@contoso.com', 78)
customers = [customer_1, customer_2, customer_3, customer_4]
df = spark.createDataFrame(customers)
df.write.parquet("<path>/customers")
Pokud chcete vygenerovat cestu k souboru Parquet, vyberte tři tečky v průzkumníku lakehouse a pak zvolte buď kopírovat cestu ABFS, nebo kopírovat relativní cestu pro Spark. Pokud píšete kód Pythonu , můžete použít možnost kopírovat souborové rozhraní API nebo kopírovat cestu ABFS.
Následující kód načte soubor parquet do datového rámce.
df = spark.read.parquet("<path>/customers")
display(df)
Alternativně můžete také vygenerovat kód pro automatické načtení dat v poznámkovém bloku. Zvolte datový soubor a pak vyberte Načíst data. Potom budete muset zvolit rozhraní API, které chcete použít.
Zatímco soubor parquet v předchozím příkladu je uložený v jezeře, je také možné načíst data z externích zdrojů, jako je Azure Blob Storage.
account_name = "<account_name>"
container_name = "<container_name>"
relative_path = "<relative_path>"
sas_token = "<sas_token>"
wasbs = f'wasbs://{blob_container_name}@{blob_account_name}.blob.core.windows.net/{blob_relative_path}?{blob_sas_token}'
df = spark.read.parquet(wasbs)
df.show()
Podobným postupem můžete načíst jiné typy souborů, jako jsou .csv
, .json
a .txt
soubory. Stačí metodu .parquet
nahradit odpovídající metodou pro váš typ souboru, například:
# For CSV files
df_csv = spark.read.csv('<path>')
# For JSON files
df_json = spark.read.json('<path>')
# For text files
df_text = spark.read.text('<path>')
Tip
Přečtěte si další informace o tom, jak ingestovat a orchestrovat data z různých zdrojů pomocí Microsoft Fabric.