Načtení dat pro zkoumání

Dokončeno

Načítání a zkoumání dat jsou prvními kroky v jakémkoli projektu datových věd. Zahrnují pochopení struktury, obsahu a zdroje dat, které jsou pro následnou analýzu zásadní.

Po připojení ke zdroji dat můžete data uložit do Microsoft Fabric Lakehouse. Jezero můžete použít jako centrální umístění k ukládání jakýchkoli strukturovaných, částečně strukturovaných a nestrukturovaných souborů. Kdykoli budete chtít získat přístup k datům pro průzkum nebo transformaci, můžete se snadno připojit k jezeru.

Načtení dat pomocí poznámkových bloků

Poznámkové bloky v Microsoft Fabric usnadňují zpracování datových prostředků. Jakmile se datové prostředky nacházejí v jezeře, můžete snadno vygenerovat kód v poznámkovém bloku, který tyto prostředky ingestuje.

Představte si scénář, ve kterém už datový inženýr transformoval zákaznická data a uložil je do jezera. Datový vědec může data snadno načíst pomocí poznámkových bloků k dalšímu zkoumání a vytvoření modelu strojového učení. To umožňuje okamžitě začít pracovat, ať už zahrnuje další manipulace s daty, průzkumnou analýzu dat nebo vývoj modelů.

Pojďme vytvořit ukázkový soubor parquet, který ilustruje operaci načítání. Následující kód PySpark vytvoří datový rámec zákaznických dat a zapíše ho do souboru Parquet v jezeře.

Apache Parquet je opensourcový formát úložiště dat orientovaný na sloupce. Je navržená pro efektivní ukládání a načítání dat a je známá kvůli vysokému výkonu a kompatibilitě s mnoha architekturami pro zpracování dat.

from pyspark.sql import Row

Customer = Row("firstName", "lastName", "email", "loyaltyPoints")

customer_1 = Customer('John', 'Smith', 'john.smith@contoso.com', 15)
customer_2 = Customer('Anna', 'Miller', 'anna.miller@contoso.com', 65)
customer_3 = Customer('Sam', 'Walters', 'sam@contoso.com', 6)
customer_4 = Customer('Mark', 'Duffy', 'mark@contoso.com', 78)

customers = [customer_1, customer_2, customer_3, customer_4]
df = spark.createDataFrame(customers)

df.write.parquet("<path>/customers")

Pokud chcete vygenerovat cestu k souboru Parquet, vyberte tři tečky v průzkumníku lakehouse a pak zvolte buď kopírovat cestu ABFS, nebo kopírovat relativní cestu pro Spark. Pokud píšete kód Pythonu , můžete použít možnost kopírovat souborové rozhraní API nebo kopírovat cestu ABFS.

Screenshot of the copy path options on the lakehouse explorer.

Následující kód načte soubor parquet do datového rámce.

df = spark.read.parquet("<path>/customers")

display(df)

Alternativně můžete také vygenerovat kód pro automatické načtení dat v poznámkovém bloku. Zvolte datový soubor a pak vyberte Načíst data. Potom budete muset zvolit rozhraní API, které chcete použít.

Zatímco soubor parquet v předchozím příkladu je uložený v jezeře, je také možné načíst data z externích zdrojů, jako je Azure Blob Storage.

account_name = "<account_name>"
container_name = "<container_name>"
relative_path = "<relative_path>"
sas_token = "<sas_token>" 

wasbs = f'wasbs://{blob_container_name}@{blob_account_name}.blob.core.windows.net/{blob_relative_path}?{blob_sas_token}'

df = spark.read.parquet(wasbs)
df.show()

Podobným postupem můžete načíst jiné typy souborů, jako jsou .csv, .jsona .txt soubory. Stačí metodu .parquet nahradit odpovídající metodou pro váš typ souboru, například:

# For CSV files
df_csv = spark.read.csv('<path>')

# For JSON files
df_json = spark.read.json('<path>')

# For text files
df_text = spark.read.text('<path>')

Tip

Přečtěte si další informace o tom, jak ingestovat a orchestrovat data z různých zdrojů pomocí Microsoft Fabric.