Prozkoumání zdrojových dat pro datový kanál
Běžným prvním krokem při vytváření datového kanálu je pochopení zdrojových dat kanálu. V tomto kroku spustíte příkazy Databricks Utilities a PySpark v poznámkovém bloku, abyste prozkoumali zdrojová data a artefakty.
Další informace o průzkumné analýze dat najdete v tématu Průzkumná analýza dat v Azure Databricks: Nástroje a techniky.
Video: Úvod do poznámkových bloků Databricks
Úvod do poznámkových bloků Databricks najdete v tomto videu:
Vytvoření poznámkového bloku pro zkoumání dat
Na bočním panelu klikněte na Nový a v nabídce vyberte Poznámkový blok. Poznámkový blok se otevře s výchozím názvem, který můžete nahradit.
Zadejte název poznámkového bloku,
Explore songs data
například . Standardně:- Python je vybraný jazyk.
- Poznámkový blok je připojený k poslednímu použitému clusteru. V tomto případě cluster, který jste vytvořili v kroku 1: Vytvoření clusteru.
Pokud chcete zobrazit obsah adresáře obsahujícího datovou sadu, zadejte do první buňky poznámkového bloku následující příkaz, klikněte a vyberte Spustit buňku.
%fs ls "/databricks-datasets/songs"
path name size modificationTime dbfs:/databricks-datasets/songs/README.md README.md 1719 1454620183000 dbfs:/databricks-datasets/songs/data-001/ data-001/ 0 1672791237846 dbfs:/databricks-datasets/songs/data-002/ data-002/ 0 1672791237846
Prozkoumání dat
Soubor README obsahuje informace o datové sadě, včetně popisu schématu dat. Informace o schématu se používají v dalším kroku při ingestování dat. Pokud chcete zobrazit obsah souboru README, klikněte v nabídce akcí buňky, vyberte Přidat buňku níže, do nové buňky zadejte následující příkaz, klikněte a vyberte Spustit buňku.
%fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"
Sample of Million Song Dataset =============================== ## Source This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/). The original data was contributed by The Echo Nest. Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu> ## Attribute Information - artist_id:string - artist_latitude:double - artist_longitude:double - artist_location:string - artist_name:string - duration:double - end_of_fade_in:double - key:int - key_confidence:double - loudness:double - release:string - song_hotnes:double - song_id:string - start_of_fade_out:double - tempo:double - time_signature:double - time_signature_confidence:double - title:string - year:double - partial_sequence:int ...
Záznamy použité v tomto příkladu jsou v adresáři
/databricks-datasets/songs/data-001/
. Pokud chcete zobrazit obsah tohoto adresáře, klikněte v nabídce akcí buňky, vyberte Přidat buňku níže, do nové buňky zadejte následující příkaz, klikněte a vyberte Spustit buňku.%fs ls "/databricks-datasets/songs/data-001"
path name size modificationTime dbfs:/databricks-datasets/songs/data-001/header.txt header.txt 377 1454633901000 dbfs:/databricks-datasets/songs/data-001/part-00000 part-000000 52837 1454547464000 dbfs:/databricks-datasets/songs/data-001/part-00001 part-00001 52469 1454547465000 Vzhledem k tomu, že názvy souboru README a souboru neudávají formát souboru, můžete zobrazit ukázku záznamů, abyste lépe porozuměli obsahu a formátu každého záznamu. Chcete-li přečíst a zobrazit prvních deset záznamů z jednoho z datových souborů, klikněte v nabídce akcí buňky, vyberte Přidat buňku níže, do nové buňky zadejte následující příkaz, klikněte a vyberte Spustit buňku.
%fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"
AR81V6H1187FB48872 nan nan Earl Sixteen 213.7073 0.0 11 0.419 -12.106 Soldier of Jah Army nan SOVNZSZ12AB018A9B8 208.289 125.882 1 0.0 Rastaman 2003 -- ARVVZQP11E2835DBCB nan nan Wavves 133.25016 0.0 0 0.282 0.596 Wavvves 0.471578247701 SOJTQHQ12A8C143C5F 128.116 89.519 1 0.0 I Want To See You (And Go To The Movies) 2009 -- ARFG9M11187FB3BBCB nan nan Nashua USA C-Side 247.32689 0.0 9 0.612 -4.896 Santa Festival Compilation 2008 vol.1 nan SOAJSQL12AB0180501 242.196 171.278 5 1.0 Loose on the Dancefloor 0 225261 ...
Když si prohlédnete ukázku záznamů, můžete si prohlédnout několik věcí o datech. Tyto pozorování použijete později při zpracování dat:
- Záznamy neobsahují záhlaví. Místo toho se hlavička uloží do samostatného souboru ve stejném adresáři.
- Soubory jsou ve formátu TSV (tab-separated value).
- Některá pole chybí nebo jsou neplatná.
- Záznamy neobsahují záhlaví. Místo toho se hlavička uloží do samostatného souboru ve stejném adresáři.
K dalšímu zkoumání a analýze dat použijte tato pozorování k načtení dat skladby formátovaných TSV do datového rámce PySpark. Uděláte to tak, že kliknete v nabídce Akce buňky, vyberete Přidat buňku pod, do nové buňky zadáte následující kód a potom kliknete na >Spustit buňku.
df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000') df.display()
Vzhledem k tomu, že v datovém souboru chybí záhlaví, zobrazí se názvy sloupců jako
_c0
,_c1
atd. Každý sloupec se interpretuje jakostring
bez ohledu na skutečný datový typ. Příjem nezpracovaných dat v dalším kroku ukazuje příklad, jak můžete při načítání dat uložit platné schéma.