Sdílet prostřednictvím


Prozkoumání zdrojových dat pro datový kanál

Běžným prvním krokem při vytváření datového kanálu je pochopení zdrojových dat kanálu. V tomto kroku spustíte příkazy Databricks Utilities a PySpark v poznámkovém bloku, abyste prozkoumali zdrojová data a artefakty.

Další informace o průzkumné analýze dat najdete v tématu Průzkumná analýza dat v Azure Databricks: Nástroje a techniky.

Video: Úvod do poznámkových bloků Databricks

Úvod do poznámkových bloků Databricks najdete v tomto videu:

Vytvoření poznámkového bloku pro zkoumání dat

  1. Na bočním panelu klikněte na Nová ikona Nový a v nabídce vyberte Poznámkový blok. Poznámkový blok se otevře s výchozím názvem, který můžete nahradit.

  2. Zadejte název poznámkového bloku, Explore songs datanapříklad . Standardně:

    • Python je vybraný jazyk.
    • Poznámkový blok je připojený k poslednímu použitému clusteru. V tomto případě cluster, který jste vytvořili v kroku 1: Vytvoření clusteru.
  3. Pokud chcete zobrazit obsah adresáře obsahujícího datovou sadu, zadejte do první buňky poznámkového bloku následující příkaz, klikněte a Nabídka Spustitvyberte Spustit buňku.

    %fs ls "/databricks-datasets/songs"
    
    path name size modificationTime
    dbfs:/databricks-datasets/songs/README.md README.md 1719 1454620183000
    dbfs:/databricks-datasets/songs/data-001/ data-001/ 0 1672791237846
    dbfs:/databricks-datasets/songs/data-002/ data-002/ 0 1672791237846

Prozkoumání dat

  1. Soubor README obsahuje informace o datové sadě, včetně popisu schématu dat. Informace o schématu se používají v dalším kroku při ingestování dat. Pokud chcete zobrazit obsah souboru README, klikněte Stříšku dolův nabídce akcí buňky, vyberte Přidat buňku níže, do nové buňky zadejte následující příkaz, klikněte aNabídka Spustit vyberte Spustit buňku.

    %fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"
    
    Sample of Million Song Dataset
    ===============================
    
    ## Source
    This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/).
    The original data was contributed by The Echo Nest.
    Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu>
    
    ## Attribute Information
    - artist_id:string
    - artist_latitude:double
    - artist_longitude:double
    - artist_location:string
    - artist_name:string
    - duration:double
    - end_of_fade_in:double
    - key:int
    - key_confidence:double
    - loudness:double
    - release:string
    - song_hotnes:double
    - song_id:string
    - start_of_fade_out:double
    - tempo:double
    - time_signature:double
    - time_signature_confidence:double
    - title:string
    - year:double
    - partial_sequence:int
    ...
    
  2. Záznamy použité v tomto příkladu jsou v adresáři /databricks-datasets/songs/data-001/ . Pokud chcete zobrazit obsah tohoto adresáře, klikněte Stříšku dolův nabídce akcí buňky, vyberte Přidat buňku níže, do nové buňky zadejte následující příkaz, klikněte aNabídka Spustit vyberte Spustit buňku.

    %fs ls "/databricks-datasets/songs/data-001"
    
    path name size modificationTime
    dbfs:/databricks-datasets/songs/data-001/header.txt header.txt 377 1454633901000
    dbfs:/databricks-datasets/songs/data-001/part-00000 part-000000 52837 1454547464000
    dbfs:/databricks-datasets/songs/data-001/part-00001 part-00001 52469 1454547465000
  3. Vzhledem k tomu, že názvy souboru README a souboru neudávají formát souboru, můžete zobrazit ukázku záznamů, abyste lépe porozuměli obsahu a formátu každého záznamu. Chcete-li přečíst a zobrazit prvních deset záznamů z jednoho z datových souborů, klikněte v Stříšku dolůnabídce akcí buňky, vyberte Přidat buňku níže, do nové buňky zadejte následující příkaz, klikněte aNabídka Spustit vyberte Spustit buňku.

    %fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"
    
     AR81V6H1187FB48872  nan     nan             Earl Sixteen    213.7073        0.0     11      0.419   -12.106 Soldier of Jah Army     nan     SOVNZSZ12AB018A9B8      208.289 125.882 1       0.0     Rastaman        2003    --
     ARVVZQP11E2835DBCB  nan     nan             Wavves  133.25016       0.0     0       0.282   0.596   Wavvves 0.471578247701  SOJTQHQ12A8C143C5F      128.116 89.519  1       0.0     I Want To See You (And Go To The Movies)        2009    --
     ARFG9M11187FB3BBCB  nan     nan     Nashua USA      C-Side  247.32689       0.0     9       0.612   -4.896  Santa Festival Compilation 2008 vol.1   nan     SOAJSQL12AB0180501      242.196 171.278 5       1.0     Loose on the Dancefloor 0       225261
     ...
    

    Když si prohlédnete ukázku záznamů, můžete si prohlédnout několik věcí o datech. Tyto pozorování použijete později při zpracování dat:

    • Záznamy neobsahují záhlaví. Místo toho se hlavička uloží do samostatného souboru ve stejném adresáři.
      • Soubory jsou ve formátu TSV (tab-separated value).
      • Některá pole chybí nebo jsou neplatná.
  4. K dalšímu zkoumání a analýze dat použijte tato pozorování k načtení dat skladby formátovaných TSV do datového rámce PySpark. Uděláte to tak, že kliknete Stříšku dolů v nabídce Akce buňky, vyberete Přidat buňku pod, do nové buňky zadáte následující kód a potom kliknete na Nabídka Spustit>Spustit buňku.

    df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000')
    df.display()
    

    Vzhledem k tomu, že v datovém souboru chybí záhlaví, zobrazí se názvy sloupců jako _c0, _c1atd. Každý sloupec se interpretuje jako string bez ohledu na skutečný datový typ. Příjem nezpracovaných dat v dalším kroku ukazuje příklad, jak můžete při načítání dat uložit platné schéma.

    Datový rámec vytvořený z nezpracovaných dat skladeb