Prozkoumání zdrojových dat pro datový kanál

Článek
09/28/2024

Běžným prvním krokem při vytváření datového kanálu je pochopení zdrojových dat kanálu. V tomto kroku spustíte příkazy Databricks Utilities a PySpark v poznámkovém bloku, abyste prozkoumali zdrojová data a artefakty.

Další informace o průzkumné analýze dat najdete v tématu Průzkumná analýza dat v Azure Databricks: Nástroje a techniky.

Video: Úvod do poznámkových bloků Databricks

Úvod do poznámkových bloků Databricks najdete v tomto videu:

Vytvoření poznámkového bloku pro zkoumání dat

Na bočním panelu klikněte na Nový a v nabídce vyberte Poznámkový blok. Poznámkový blok se otevře s výchozím názvem, který můžete nahradit.
Zadejte název poznámkového bloku, Explore songs datanapříklad . Standardně:
- Python je vybraný jazyk.
- Poznámkový blok je připojený k poslednímu použitému clusteru. V tomto případě cluster, který jste vytvořili v kroku 1: Vytvoření clusteru.

Pokud chcete zobrazit obsah adresáře obsahujícího datovou sadu, zadejte do první buňky poznámkového bloku následující příkaz, klikněte a vyberte Spustit buňku.

%fs ls "/databricks-datasets/songs"

path	name	size	modificationTime
dbfs:/databricks-datasets/songs/README.md	README.md	1719	1454620183000
dbfs:/databricks-datasets/songs/data-001/	data-001/	0	1672791237846
dbfs:/databricks-datasets/songs/data-002/	data-002/	0	1672791237846

Prozkoumání dat

Soubor README obsahuje informace o datové sadě, včetně popisu schématu dat. Informace o schématu se používají v dalším kroku při ingestování dat. Pokud chcete zobrazit obsah souboru README, klikněte Stříšku dolů v nabídce akcí buňky, vyberte Přidat buňku níže, do nové buňky zadejte následující příkaz, klikněte a vyberte Spustit buňku.

%fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"

Sample of Million Song Dataset
===============================

## Source
This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/).
The original data was contributed by The Echo Nest.
Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu>

## Attribute Information
- artist_id:string
- artist_latitude:double
- artist_longitude:double
- artist_location:string
- artist_name:string
- duration:double
- end_of_fade_in:double
- key:int
- key_confidence:double
- loudness:double
- release:string
- song_hotnes:double
- song_id:string
- start_of_fade_out:double
- tempo:double
- time_signature:double
- time_signature_confidence:double
- title:string
- year:double
- partial_sequence:int
...

Záznamy použité v tomto příkladu jsou v adresáři /databricks-datasets/songs/data-001/ . Pokud chcete zobrazit obsah tohoto adresáře, klikněte Stříšku dolů v nabídce akcí buňky, vyberte Přidat buňku níže, do nové buňky zadejte následující příkaz, klikněte a vyberte Spustit buňku.

%fs ls "/databricks-datasets/songs/data-001"

path	name	size	modificationTime
dbfs:/databricks-datasets/songs/data-001/header.txt	header.txt	377	1454633901000
dbfs:/databricks-datasets/songs/data-001/part-00000	part-000000	52837	1454547464000
dbfs:/databricks-datasets/songs/data-001/part-00001	part-00001	52469	1454547465000

Vzhledem k tomu, že názvy souboru README a souboru neudávají formát souboru, můžete zobrazit ukázku záznamů, abyste lépe porozuměli obsahu a formátu každého záznamu. Chcete-li přečíst a zobrazit prvních deset záznamů z jednoho z datových souborů, klikněte v Stříšku dolů nabídce akcí buňky, vyberte Přidat buňku níže, do nové buňky zadejte následující příkaz, klikněte a vyberte Spustit buňku.

%fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"

 AR81V6H1187FB48872  nan     nan             Earl Sixteen    213.7073        0.0     11      0.419   -12.106 Soldier of Jah Army     nan     SOVNZSZ12AB018A9B8      208.289 125.882 1       0.0     Rastaman        2003    --
 ARVVZQP11E2835DBCB  nan     nan             Wavves  133.25016       0.0     0       0.282   0.596   Wavvves 0.471578247701  SOJTQHQ12A8C143C5F      128.116 89.519  1       0.0     I Want To See You (And Go To The Movies)        2009    --
 ARFG9M11187FB3BBCB  nan     nan     Nashua USA      C-Side  247.32689       0.0     9       0.612   -4.896  Santa Festival Compilation 2008 vol.1   nan     SOAJSQL12AB0180501      242.196 171.278 5       1.0     Loose on the Dancefloor 0       225261
 ...

Když si prohlédnete ukázku záznamů, můžete si prohlédnout několik věcí o datech. Tyto pozorování použijete později při zpracování dat:

Záznamy neobsahují záhlaví. Místo toho se hlavička uloží do samostatného souboru ve stejném adresáři.
- Soubory jsou ve formátu TSV (tab-separated value).
- Některá pole chybí nebo jsou neplatná.

K dalšímu zkoumání a analýze dat použijte tato pozorování k načtení dat skladby formátovaných TSV do datového rámce PySpark. Uděláte to tak, že kliknete v nabídce Akce buňky, vyberete Přidat buňku pod, do nové buňky zadáte následující kód a potom kliknete na >Spustit buňku.
```
df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000')
df.display()
```
Vzhledem k tomu, že v datovém souboru chybí záhlaví, zobrazí se názvy sloupců jako _c0, _c1atd. Každý sloupec se interpretuje jako string bez ohledu na skutečný datový typ. Příjem nezpracovaných dat v dalším kroku ukazuje příklad, jak můžete při načítání dat uložit platné schéma.

Sdílet prostřednictvím

Prozkoumání zdrojových dat pro datový kanál

Video: Úvod do poznámkových bloků Databricks

Vytvoření poznámkového bloku pro zkoumání dat

Prozkoumání dat

Váš názor

Další materiály