Utforska källdata för en datapipeline

Artikel
01/22/2025

Ett vanligt första steg när du skapar en datapipeline är att förstå källdata för pipelinen. I det här steget kör du Kommandona Databricks Utilities och PySpark i en notebook-fil för att undersöka källdata och artefakter.

Mer information om undersökande dataanalys finns i Undersökande dataanalys på Azure Databricks: Verktyg och tekniker.

Video: Introduktion till Databricks-notebook-filer

En introduktion till Databricks-notebook-filer finns i den här videon:

Skapa en notebook-fil för datautforskning

I sidofältet klickar du på Ny och selectNotebook- från menyn. Anteckningsboken öppnas med ett standardnamn som du kan ersätta.
Ange ett namn på anteckningsboken, till exempel Explore songs data. Som standard:
- Python är det valda språket.
- Anteckningsboken är kopplad till det senaste klustret som du använde. I det här fallet klustret som du skapade i steg 1: Skapa ett kluster.

Om du vill visa innehållet i katalogen som innehåller datamängden anger du följande i den första cellen i anteckningsboken, klickar på och selectKör cell.

%fs ls "/databricks-datasets/songs"

path	name	storlek	modificationTime
dbfs:/databricks-datasets/songs/README.md	VIKTIGT.md	1719	1454620183000
dbfs:/databricks-datasets/songs/data-001/	data-001/	0	1672791237846
dbfs:/databricks-datasets/songs/data-002/	data-002/	0	1672791237846

Utforska data

README-filen innehåller information om datamängden, inklusive en beskrivning av data schema. Den schema-informationen används i nästa steg när man matar in data. Om du vill visa innehållet i README klickar du på Down Caret i menyn cellåtgärder, selectLägg till cell nedanföranger du följande i den nya cellen, klickar på och selectKör cell.

%fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"

Sample of Million Song Dataset
===============================

## Source
This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/).
The original data was contributed by The Echo Nest.
Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu>

## Attribute Information
- artist_id:string
- artist_latitude:double
- artist_longitude:double
- artist_location:string
- artist_name:string
- duration:double
- end_of_fade_in:double
- key:int
- key_confidence:double
- loudness:double
- release:string
- song_hotnes:double
- song_id:string
- start_of_fade_out:double
- tempo:double
- time_signature:double
- time_signature_confidence:double
- title:string
- year:double
- partial_sequence:int
...

De poster som används i det här exemplet finns i /databricks-datasets/songs/data-001/ katalogen. Om du vill visa innehållet i den här katalogen klickar du på Down Caret i menyn cellåtgärder, selectLägg till cell nedanföranger du följande i den nya cellen, klickar på och selectKör cell.

%fs ls "/databricks-datasets/songs/data-001"

path	name	storlek	modificationTime
dbfs:/databricks-datasets/songs/data-001/header.txt	header.txt	377	1454633901000
dbfs:/databricks-datasets/songs/data-001/part-00000	del-00000	52837	1454547464000
dbfs:/databricks-datasets/songs/data-001/part-00001	part-00001	52469	1454547465000

Eftersom README- och filnamnen inte anger filformatet kan du visa ett exempel på posterna för att bättre förstå innehållet och formatet för varje post. För att läsa och visa de första tio posterna från en av datafilerna, klicka på Down Caret i menyn för cellåtgärder. Sedan klickar du på selectLägg till cell nedanför, ange följande i den nya cellen, klicka på , och slutligen selectKör cell.

%fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"

 AR81V6H1187FB48872  nan     nan             Earl Sixteen    213.7073        0.0     11      0.419   -12.106 Soldier of Jah Army     nan     SOVNZSZ12AB018A9B8      208.289 125.882 1       0.0     Rastaman        2003    --
 ARVVZQP11E2835DBCB  nan     nan             Wavves  133.25016       0.0     0       0.282   0.596   Wavvves 0.471578247701  SOJTQHQ12A8C143C5F      128.116 89.519  1       0.0     I Want To See You (And Go To The Movies)        2009    --
 ARFG9M11187FB3BBCB  nan     nan     Nashua USA      C-Side  247.32689       0.0     9       0.612   -4.896  Santa Festival Compilation 2008 vol.1   nan     SOAJSQL12AB0180501      242.196 171.278 5       1.0     Loose on the Dancefloor 0       225261
 ...

Du kan observera några saker om data från att visa ett exempel på posterna. Du kommer att använda dessa observationer senare när du bearbetar data:

Posterna innehåller inte ett huvud. I stället lagras huvudet i en separat fil i samma katalog.
- Filerna verkar vara i TSV-format (tab-separated value).
- Vissa fält saknas eller är ogiltiga.

Om du vill utforska och analysera data ytterligare använder du dessa observationer för att läsa in TSV-formaterade sångdata till en PySpark DataFrame. Om du vill göra det klickar du på i menyn cellåtgärder, selectLägg till cell nedanför, anger följande kod i den nya cellen och klickar sedan på >Kör cell.
```
df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000')
df.display()
```
Eftersom datafilen saknar ett huvud visas column namn som _c0, _c1och så vidare. Varje column tolkas som en string oavsett den faktiska datatypen. Inmatningen av rådata i nästa steg visar ett exempel på hur du kan använda en giltig schema när du läser in data.

Dela via

Utforska källdata för en datapipeline

Video: Introduktion till Databricks-notebook-filer

Skapa en notebook-fil för datautforskning

Utforska data

Feedback

Ytterligare resurser