Sdílet prostřednictvím


bamboolib

Důležitý

Tato dokumentace byla vyřazena a nemusí být aktualizována. bamboolib je zastaralá. Pomoc s generováním kódu najdete v tématu Databricks Assistant.

Poznámka

bamboolib je podporován v Databricks Runtime 11.3 LTS a vyšších verzích.

bamboolib je komponenta uživatelského rozhraní, která umožňuje analýzu a transformace dat bez kódu z poznámkového bloku Azure Databricks. bamboolib pomáhá uživatelům snadněji pracovat se svými daty a zrychlit běžné úpravy, zkoumání a vizualizaci dat. Když uživatelé dokončí tyto druhy úloh pomocí svých dat, bamboolib automaticky vygeneruje kód v Pythonu na pozadí. Uživatelé můžou tento kód sdílet s ostatními, kteří můžou tento kód spustit ve svých vlastních poznámkových blocích, aby mohli tyto původní úlohy rychle reprodukovat. Mohou také použít bamboolib k rozšíření těchto původních úkolů s dalšími datovými úkoly, a to vše bez nutnosti vědět, jak kódovat. Ti, kteří mají zkušenosti s kódováním, mohou tento kód rozšířit, aby vytvořil ještě sofistikovanější výsledky.

Na pozadí používá bamboolib ipywidgets, což je interaktivní rozhraní widgetu HTML pro jádro IPython. ipywidgets běží uvnitř jádra IPython .

Obsah

Požadavky

  • Poznámkový blok Azure Databricks , který je připojený ke clusteru Azure Databricks s Databricks Runtime 11.0 nebo novějším.
  • Knihovna bamboolib musí být přístupná poznámkovému bloku.

Rychlý start

  1. Vytvořte poznámkový blok Pythonu.

  2. připojit poznámkový blok ke clusteru, který splňuje požadavky .

  3. Do první buňky poznámkového blokuzadejte následující kód a potom spusťte buňku. Tento krok přeskočte, pokud je bamboolib již nainstalován v pracovním prostoru nebo clusteru.

    %pip install bamboolib
    
  4. Do druhé buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    import bamboolib as bam
    
  5. Do třetí buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    bam
    

    Poznámka

    Případně můžete vytisknout existující datový rámec pandas k zobrazení bamboolibu pro použití s tímto konkrétním datovým rámcem.

  6. Pokračujte s klíčovými úkoly.

Návody

Bamboolib můžete použít samostatně nebo s existujícím datovým rámcem pandas.

Používejte bamboolib samostatně

V tomto názorném postupu použijete bamboolib, aby se v poznámkovém bloku zobrazil obsah ukázkové sady dat o prodeji. Pak experimentujete s některým souvisejícím kódem poznámkového bloku, který pro vás bamboolib automaticky generuje. Dokončíte dotazováním a řazením kopie obsahu sady prodejních dat.

  1. Vytvořte poznámkový blok Pythonu.

  2. připojit poznámkový blok ke clusteru, který splňuje požadavky .

  3. Do první buňky poznámkového blokuzadejte následující kód a potom spusťte buňku. Tento krok přeskočte, pokud je bamboolib již nainstalován v pracovním prostoru nebo clusteru.

    %pip install bamboolib
    
  4. Do druhé buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    import bamboolib as bam
    
  5. Do třetí buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    bam
    
  6. Klikněte na pro načtení fiktivních dat.

  7. V podokně Načíst fiktivní data pro Načíst fiktivní sadu dat pro testováníbamboolib vyberte Datová sada sales.

  8. Klikněte na Spustit.

  9. Zobrazte všechny řádky, ve kterých je item_typebaby food:

    1. V seznamu Akce hledání vyberte možnost Filtrovat řádky.
    2. V podokně Filtrovat řádky, v seznamu Zvolte (nad kde), zvolte Vybrat řádky.
    3. V následujícím seznamu , kde, vyberte typ položky.
    4. V seznamu Zvolte vedle item_typevyberte mají hodnoty.
    5. V poli Zvolte hodnoty vedle má hodnoty, vyberte dětská výživa.
    6. Klikněte na Spustit.
  10. Zkopírujte automaticky vygenerovaný kód Pythonu pro tento dotaz:

    1. Cick kopírovat kód pod náhledem dat.
  11. Vložte a upravte kód:

    1. Do čtvrté buňky poznámkového bloku vložte kód, který jste zkopírovali. Měl by vypadat takto:

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Přidejte do tohoto kódu, aby se zobrazily pouze řádky, ve kterých je order_prioC, a pak buňku spusťte:

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Spropitné

    Místo psaní tohoto kódu můžete také udělat totéž pomocí bamboolib ve třetí buňce, aby se zobrazily pouze řádky, kde order_prio je C. Tento krok je příkladem rozšíření kódu, který bamboolib automaticky vygeneroval dříve.

  12. Seřaďte řádky podle oblasti vzestupně:

    1. Ve widgetu ve čtvrté buňce v seznamu Akcí hledání vyberte Seřadit řádky.
    2. V podokně Řazení sloupců v seznamu Zvolit sloupec vyberte oblast.
    3. V seznamu vedle oblastivyberte vzestupně (A-Z).
    4. Klikněte na Spustit.

    Poznámka

    To je ekvivalentem psaní následujícího kódu sami:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Mohli jste také použít bamboolib ve třetí buňce k seřazení řádků podle oblasti vzestupně. Tento krok ukazuje, jak můžete pomocí bamboolib rozšířit kód, který píšete. Když používáte bamboolib, automaticky vygeneruje další kód pro vás na pozadí, takže můžete dále rozšířit svůj již rozšířený kód!

  13. Pokračujte s klíčovými úkoly.

Použití bamboolibu s existujícím datovým rámcem

V tomto názorném postupu použijete bamboolib k zobrazení obsahu datového rámce pandas ve vašem poznámkovém bloku. Tento datový rámec obsahuje kopii ukázkové datové sady prodejů. Pak experimentujete s některým souvisejícím kódem poznámkového bloku, který pro vás bamboolib automaticky generuje. Dokončíte dotazováním a řazením obsahu datového rámce.

  1. Vytvořte poznámkový blok Pythonu.

  2. připojit poznámkový blok ke clusteru, který splňuje požadavky .

  3. Do první buňky poznámkového blokuzadejte následující kód a potom spusťte buňku. Tento krok přeskočte, pokud je bamboolib již nainstalován v pracovním prostoru nebo clusteru.

    %pip install bamboolib
    
  4. Do druhé buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    import bamboolib as bam
    
  5. Do třetí buňky poznámkového bloku zadejte následující kód a pak buňku spusťte.

    import pandas as pd
    
    df = pd.read_csv(bam.sales_csv)
    df
    

    Všimněte si, že bamboolib podporuje pouze pandas DataFrames. Pokud chcete převést datový rámec PySpark na datový rámec pandas, zavolejte toPandas na datovém rámci PySpark. Pokud chcete převést rozhraní API Pandas ve sparkovém datovém rámci na datový rámec pandas, zavolejte to_pandas v rozhraní Pandas API ve sparkovém datovém rámci.

  6. Klikněte na Zobrazit uživatelské rozhraní bamboolib.

  7. Zobrazte všechny řádky, ve kterých je item_typebaby food:

    1. V seznamu Akce hledání vyberte možnost Filtrovat řádky.
    2. V podokně Filtrovat řádky, v seznamu Zvolte (nad kde), zvolte Vybrat řádky.
    3. V následujícím seznamu , kde, vyberte typ položky.
    4. V seznamu Zvolte vedle item_typevyberte mají hodnoty.
    5. V poli Zvolte hodnoty vedle má hodnoty, vyberte dětská výživa.
    6. Klikněte na Spustit.
  8. Zkopírujte automaticky vygenerovaný kód Pythonu pro tento dotaz. Uděláte to tak, že kliknete na Kopírovat kód pod náhledem dat.

  9. Vložte a upravte kód:

    1. Do čtvrté buňky poznámkového bloku vložte kód, který jste zkopírovali. Měl by vypadat takto:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Přidejte do tohoto kódu, aby se zobrazily pouze řádky, ve kterých je order_prioC, a pak buňku spusťte:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Spropitné

    Místo psaní tohoto kódu můžete také udělat totéž pomocí bamboolib ve třetí buňce, aby se zobrazily pouze řádky, kde order_prio je C. Tento krok je příkladem rozšíření kódu, který bamboolib automaticky vygeneroval dříve.

  10. Seřaďte řádky podle oblasti vzestupně:

    a. Ve widgetu ve čtvrté buňce klikněte na Seřadit řádky.

    1. V podokně Řazení sloupců v seznamu Zvolit sloupec vyberte oblast.
    2. V seznamu vedle oblastivyberte vzestupně (A-Z).
    3. Klikněte na Spustit.

    Poznámka

    To je ekvivalentem psaní následujícího kódu sami:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Mohli jste také použít bamboolib ve třetí buňce k seřazení řádků podle oblasti vzestupně. Tento krok ukazuje, jak můžete pomocí bamboolib rozšířit kód, který píšete. Když používáte bamboolib, automaticky vygeneruje další kód pro vás na pozadí, takže můžete dále rozšířit svůj již rozšířený kód!

  11. Pokračujte s klíčovými úkoly.

Klíčové úkoly

V této části:

Přidání widgetu do buňky

Scénář: Chcete, aby widget bamboolib zobrazoval v buňce.

  1. Ujistěte se, že poznámkový blok splňuje požadavky pro bamboolib.

  2. Pokud není bamboolib již nainstalován v pracovním prostoru nebo clusteru spustit následující kód v buňce v poznámkovém bloku, nejlépe v první buňce:

    %pip install bamboolib
    
  3. V poznámkovém bloku spusťte následující kód, nejlépe v první nebo druhé buňce poznámkového bloku:

    import bamboolib as bam
    
  4. možnost 1: Do buňky, ve které se má widget objevit, přidejte následující kód a spusťte buňku:

    bam
    

    Widget se zobrazí v buňce pod kódem.

    Nebo:

    možnost 2: V buňce obsahující odkaz na datový rámec pandasvytiskněte datový rámec. Například s ohledem na následující definici datového rámce spusťte buňku:

    import pandas as pd
    from datetime import datetime, date
    
    df = pd.DataFrame({
      'a': [ 1, 2, 3 ],
      'b': [ 2., 3., 4. ],
      'c': [ 'string1', 'string2', 'string3' ],
      'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
      'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
    })
    
    df
    

    Widget se zobrazí v buňce pod kódem.

    Všimněte si, že bamboolib podporuje pouze pandas DataFrames. Pokud chcete převést datový rámec PySpark na datový rámec pandas, zavolejte toPandas na datovém rámci PySpark. Pokud chcete převést rozhraní API Pandas ve sparkovém datovém rámci na datový rámec pandas, zavolejte to_pandas v rozhraní Pandas API ve sparkovém datovém rámci.

Vymazat widget

Scénář: Chcete vymazat obsah widgetu a pak číst nová data do existujícího widgetu.

možnost 1: Spusťte následující kód v buňce, která obsahuje cílový widget:

bam

Widget vymaže a znovu zobrazí tlačítka Databricks: Přečíst soubor CSV z DBFS, Databricks: Načíst databázovou tabulkua tlačítka Načíst fiktivní data.

Poznámka

Pokud se zobrazí chyba name 'bam' is not defined, spusťte v poznámkovém bloku následující kód (nejlépe v první buňce poznámkového bloku) a zkuste to znovu:

import bamboolib as bam

možnost 2: V buňce, která obsahuje odkaz na pandas DataFrame , znovu zobrazte DataFrame opětovným spuštěním buňky. Widget nejprve vymaže a poté zobrazí nová data.

Úlohy načítání dat

V této části:

načtení ukázkového obsahu datové sady do widgetu

Scénář: Chcete do widgetu přečíst ukázková data, například předstírat prodejní data, abyste mohli otestovat funkčnost widgetu.

  1. Klikněte na pro načtení fiktivních dat.

    Poznámka

    Pokud Načíst fiktivní data není vidět, widget vymažte pomocí možnosti 1 a zkuste to znovu.

  2. V podokně Načíst fiktivní data, pro Načíst fiktivní datovou sadu pro testování bamboolib, vyberte název datové sady, kterou chcete načíst.

  3. Pro název datového rámcezadejte název pro programový identifikátor obsahu tabulky jako datový rámecnebo ponechte df jako výchozí programový identifikátor.

  4. Klikněte na Spustit.

    Widget zobrazí obsah datové sady.

Spropitné

Aktuální widget můžete přepnout tak, aby zobrazoval obsah jiné ukázkové datové sady:

  1. V aktuálním widgetu klikněte na kartu Načíst fiktivní data.
  2. Podle předchozích kroků si přečtěte obsah další ukázkové datové sady do widgetu.

čtení obsahu souboru CSV do widgetu

scénář: Chcete do widgetu přečíst obsah souboru CSV v pracovním prostoru Azure Databricks.

  1. Klikněte na Databricks: Čtení souboru CSV z DBFS.

    Poznámka

    Pokud Databricks: Čtení souboru CSV z DBFS není viditelné, widget vymažte pomocí možnosti 1 a zkuste to znovu.

  2. V podokně Číst CSV z DBFS přejděte do umístění, které obsahuje cílový soubor CSV.

  3. Vyberte cílový soubor CSV.

  4. Pro název datového rámcezadejte název pro programový identifikátor obsahu souboru CSV jako datový rámecnebo ponechte df jako výchozí programový identifikátor.

  5. Pro oddělovač hodnot CSVzadejte znak, který odděluje hodnoty v souboru CSV, nebo ponechte znak , (čárka) jako výchozí oddělovač hodnot.

  6. Pro oddělovač desetinných místzadejte znak, který odděluje desetinná místa v souboru CSV, nebo ponechte . znak (tečka) jako výchozí oddělovač hodnot.

  7. Pro omezení řádků: přečtěte prvních N řádků – ponechejte prázdné pro žádné omezení, zadejte maximální počet řádků, které se mají do widgetu číst, nebo ponechte 100000 jako výchozí počet řádků, nebo ponechte toto pole prázdné a nezadáte žádný limit.

  8. Klikněte na Otevřít soubor CSV.

    Widget zobrazí obsah souboru CSV na základě vámi zadaných nastavení.

Spropitné

Aktuální widget můžete přepnout tak, aby zobrazoval obsah jiného souboru CSV:

  1. V aktuálním widgetu klikněte na kartu Číst CSV z DBFS.
  2. Podle předchozích kroků si přečtěte obsah jiného souboru CSV do widgetu.

Čtení obsahu databázové tabulky do widgetu

scénář: Chcete do widgetu přečíst obsah databázové tabulky v pracovním prostoru Azure Databricks.

  1. Klikněte na Databricks: Načtěte tabulku databáze.

    Poznámka

    Pokud Databricks: databázová tabulka není viditelná, vymažte widget pomocí možnosti 1 a zkuste to znovu.

  2. V podokně Databricks: Načíst tabulku databáze pro Database – ponechte pro výchozí databáziprázdné, zadejte název databáze, ve které se nachází cílová tabulka, nebo nechte toto pole prázdné a zadejte výchozí databázi.

  3. Do pole Tabulkazadejte název cílové tabulky.

  4. Pro omezení řádků: přečtěte prvních N řádků – ponechejte prázdné pro žádné omezení, zadejte maximální počet řádků, které se mají do widgetu číst, nebo ponechte 100000 jako výchozí počet řádků, nebo ponechte toto pole prázdné a nezadáte žádný limit.

  5. Pro název datového rámcezadejte název pro programový identifikátor obsahu tabulky jako datový rámecnebo ponechte df jako výchozí programový identifikátor.

  6. Klikněte na Spustit.

    Widget zobrazí obsah tabulky na základě nastavení, která jste zadali.

Spropitné

Aktuální widget můžete přepnout tak, aby zobrazoval obsah jiné tabulky:

  1. V aktuálním widgetu klikněte na záložku Databricks: Načtení databázové tabulky.
  2. Podle předchozích kroků si přečtěte obsah druhé tabulky do widgetu.

Úlohy akce s daty

bamboolib nabízí více než 50 datových akcí. Mezi nejběžnější akční úlohy na začátek práce s daty patří následující.

V této části:

Výběr sloupců

Scénář: Chcete zobrazit pouze konkrétní sloupce tabulky podle názvu, podle datového typu nebo odpovídající určitého regulárního výrazu. Například v fiktivní datové sadě Saleschcete zobrazit jenom item_type a sales_channel sloupce nebo chcete zobrazit jenom sloupce, které obsahují řetězec _date v jejich názvech sloupců.

  1. Na kartě Data v rozevíracím seznamu Akce hledání proveďte jednu z následujících možností:
    • Zadejte , vyberte, a pak vyberte , vyberte nebo odstraňte sloupce.
    • Vyberte Výběr nebo přetažení sloupců.
  2. V podokně Výběr nebo přetažení sloupců v rozevíracím seznamu Zvolit vyberte Vybrat.
  3. Vyberte cílové názvy sloupců nebo kritérium zahrnutí.
  4. Pro název datového rámcezadejte název pro programový identifikátor obsahu tabulky jako datový rámecnebo ponechte df jako výchozí programový identifikátor.
  5. Klikněte na Spustit.

Smazat sloupce

Scénář: Chcete skrýt konkrétní sloupce tabulky podle názvu, podle datového typu nebo které odpovídají určitému regulárnímu výrazu. Například v fiktivní datové sadě Saleschcete skrýt order_prio, order_datea ship_date sloupce nebo chcete skrýt všechny sloupce, které obsahují pouze hodnoty data a času.

  1. Na kartě Data v rozevíracím seznamu Akce hledání proveďte jednu z následujících možností:
    • Zadejte vynechat, a poté zvolte Vybrat nebo vynechat sloupce.
    • Vyberte Výběr nebo přetažení sloupců.
  2. V podokně Výběr nebo přetažení sloupců v rozevíracím seznamu Zvolit vyberte Přetažení.
  3. Vyberte cílové názvy sloupců nebo kritérium zahrnutí.
  4. Pro název datového rámcezadejte název pro programový identifikátor obsahu tabulky jako datový rámecnebo ponechte df jako výchozí programový identifikátor.
  5. Klikněte na Spustit.

Filtrování řádků

scénář: Chcete zobrazit nebo skrýt konkrétní řádky tabulky na základě kritérií, jako jsou konkrétní hodnoty sloupců, které odpovídají nebo chybí. Například v fiktivní datové sadě Saleschcete zobrazit pouze řádky, ve kterých je hodnota sloupce item_type nastavená na Baby Food.

  1. Na kartě Data v rozevíracím seznamu Akce hledání proveďte jednu z následujících možností:
    • Zadejte filtra poté vyberte Filtrovat řádky.
    • Vyberte Filtrovat řádky.
  2. V podokně Filtr řádků, v rozevíracím seznamu Vyberte nad , kde je, vyberte Vybrat řádky nebo Odstranit řádky.
  3. Zadejte první kritérium filtru.
  4. Chcete-li přidat další kritérium filtru, klikněte na přidat podmínkua zadejte další kritérium filtru. Podle potřeby to zopakujte.
  5. Pro název datového rámcezadejte název pro programový identifikátor obsahu tabulky jako datový rámecnebo ponechte df jako výchozí programový identifikátor.
  6. Klikněte na Spustit.

Řazení řádků

Scénář: Chcete seřadit řádky tabulky na základě hodnot v jednom nebo více sloupcích. Například ve fiktivním datovém souboru Saleschcete zobrazit řádky podle sloupcových hodnot region v abecedním pořadí od A do Z.

  1. Na kartě Data v rozevíracím seznamu Akce hledání proveďte jednu z následujících možností:
    • Napište Seřadita pak vyberte Seřadit řádky.
    • Vyberte Seřadit řádky.
  2. V podokně Řazení sloupců vyberte první sloupec, podle kterého chcete řadit, a pořadí řazení.
  3. Chcete-li přidat další kritérium řazení, klikněte na přidat sloupeca zadejte další kritérium řazení. Podle potřeby to zopakujte.
  4. Pro název datového rámcezadejte název pro programový identifikátor obsahu tabulky jako datový rámecnebo ponechte df jako výchozí programový identifikátor.
  5. Klikněte na Spustit.

Seskupování řádků a sloupců úkolů

V této části:
Seskupení řádků a sloupců jednou agregační funkcí

Scénář: Chcete zobrazit výsledky řádků a sloupců pomocí počítaných seskupení a chcete těmto seskupením přiřadit vlastní názvy. Například v fiktivní datové sadě Saleschcete seskupit řádky podle hodnot country sloupce, zobrazit počet řádků obsahujících stejnou country hodnotu a dát seznam počítaných počtů název country_count.

  1. Na kartě Data v rozevíracím seznamu Akce hledání proveďte jednu z následujících možností:
    • Zadejte skupinua pak vyberte Seskupit podle a agregace (s přejmenováním).
    • Vyberte a seskupte podle a agregujte (s přejmenováním).
  2. V podokně pro seskupování s přejmenováním sloupce vyberte sloupce, podle kterých chcete seskupit, vyberte první výpočet a případně zadejte název pro počítaný sloupec.
  3. Chcete-li přidat další výpočet, klikněte na přidat výpočeta zadejte další výpočet a název sloupce. Podle potřeby to zopakujte.
  4. Určete, kam se má výsledek uložit.
  5. Pro název datového rámcezadejte název pro programový identifikátor obsahu tabulky jako datový rámecnebo ponechte df jako výchozí programový identifikátor.
  6. Klikněte na Spustit.
Seskupení řádků a sloupců podle více agregačních funkcí

Scénář: Chcete zobrazit výsledky řádků a sloupců pomocí počítaných seskupení. Například v datové sadě Saleschcete seskupit řádky podle hodnot sloupců region, countrya sales_channel, abyste zobrazili počet řádků obsahujících stejné hodnoty region a country podle sales_channel, a také total_revenue na základě jedinečné kombinace region, countrya sales_channel.

  1. Na kartě Data v rozevíracím seznamu Akce hledání proveďte jednu z následujících možností:
    • Zadejte skupinu, pak vyberte Seskupit podle a agregovat (výchozí).
    • Vyberte možnost Seskupit podle a provést agregaci (výchozí).
  2. V podokně Seskupit podle sloupce s přejmenováním sloupce vyberte sloupce, podle kterých chcete sloupce seskupit, a první výpočet.
  3. Chcete-li přidat další výpočet, klikněte na přidat výpočeta zadejte další výpočet. Podle potřeby to zopakujte.
  4. Určete, kam se má výsledek uložit.
  5. Pro název datového rámcezadejte název pro programový identifikátor obsahu tabulky jako datový rámecnebo ponechte df jako výchozí programový identifikátor.
  6. Klikněte na Spustit.

Odebrání řádků s chybějícími hodnotami

scénář: Chcete odebrat libovolný řádek, který obsahuje chybějící hodnotu pro zadané sloupce. Například ve fiktivním datovém souboru prodeje chcete odebrat všechny řádky, které mají chybějící hodnotu item_type.

  1. Na kartě Data v rozevíracím seznamu Akce hledání proveďte jednu z následujících možností:
    • Zadejte drop nebo odebertea vyberte Odstranit chybějící hodnoty.
    • Vyberte Vypustit chybějící hodnoty.
  2. V podokně Vyřazení chybějících hodnot vyberte sloupce a odeberte všechny řádky s chybějící hodnotou pro daný sloupec.
  3. Pro název datového rámcezadejte název pro programový identifikátor obsahu tabulky jako datový rámecnebo ponechte df jako výchozí programový identifikátor.
  4. Klikněte na Spustit.

Odebrání duplicitních řádků

Scénář: Chcete odebrat libovolný řádek, který má duplicitní hodnotu pro zadané sloupce. Například ve fiktivní datové sadě Prodejů, chcete odebrat všechny řádky, které jsou přesné duplikáty.

  1. Na kartě Data v rozevíracím seznamu Akce hledání proveďte jednu z následujících možností:
    • Zadejte upustit nebo odebrata pak vyberte Upustit/Odebrat duplicity.
    • Vyberte Odstranit duplicity.
  2. V podokně Odebrat duplicity vyberte sloupce, pro které chcete odstranit jakýkoli řádek s duplicitní hodnotou, a poté vyberte, zda chcete zachovat první nebo poslední řádek s duplicitní hodnotou.
  3. Pro název datového rámcezadejte název pro programový identifikátor obsahu tabulky jako datový rámecnebo ponechte df jako výchozí programový identifikátor.
  4. Klikněte na Spustit.

Vyhledání a nahrazení chybějících hodnot

Scénář: Chcete nahradit chybějící hodnotu hodnotou pro každý řádek se zadanými sloupci. Například v fiktivní datové sadě Saleschcete nahradit libovolný řádek chybějící hodnotou ve sloupci item_type hodnotou Unknown Item Type.

  1. Na kartě Data v rozevíracím seznamu Akce hledání proveďte jednu z následujících možností:
    • Zadejte najít nebo nahradit, a potom vyberte Najít a nahradit chybějící hodnoty.
    • Vyberte Najít a nahraďte chybějící hodnoty.
  2. V podokně Nahrazení chybějících hodnot vyberte sloupce, u kterých chcete nahradit chybějící hodnoty, a zadejte náhradní hodnotu.
  3. Klikněte na Spustit.

Vytvořte vzorec sloupce

Scénář: Chcete vytvořit sloupec, který používá jedinečný vzorec. Například v fiktivní datové sadě Saleschcete vytvořit sloupec s názvem profit_per_unit, který zobrazí výsledek vydělení hodnoty total_profit sloupce hodnotou units_sold sloupce pro každý řádek.

  1. Na kartě Data v rozevíracím seznamu Akce hledání proveďte jednu z následujících možností:
    • Zadejte vzoreca pak vyberte Nový vzorec sloupce.
    • Vyberte Nový vzorec sloupce.
  2. V podokně Nahrazení chybějících hodnot vyberte sloupce, u kterých chcete nahradit chybějící hodnoty, a zadejte náhradní hodnotu.
  3. Klikněte na Spustit.

Úlohy historie akcí dat

V této části:

Zobrazení seznamu akcí provedených ve widgetu

scénář: Chcete zobrazit seznam všech změn provedených ve widgetu, počínaje nejnovější změnou.

Klikněte na Historie. Seznam akcí se zobrazuje v panelu historie transformací .

Vrácení nejnovější akce provedené ve widgetu zpět

scénář: Chcete vrátit nejnovější změnu provedenou ve widgetu.

Udělejte jednu z těchto věcí:

  • Klikněte na ikonu šipky proti směru hodinových ručiček.
  • Klikněte na Historiea v podokně Historie transformací klikněte na Vrátit zpět poslední krok.

Znovu provést poslední akci ve widgetu

scénář: Chcete vrátit poslední vrácení, které bylo provedeno ve widgetu.

Udělejte jednu z těchto věcí:

  • Klikněte na ikonu šipky po směru hodinových ručiček.
  • Klikněte na Historiea v podokně historie transformací klikněte na Obnovit poslední krok.

Změna poslední akce provedené ve widgetu

scénář: Chcete změnit poslední změnu, kterou jste provedli ve widgetu.

  1. Udělejte jednu z těchto věcí:
    • Klikněte na ikonu tužky.
    • Klikněte na Historiea v podokně historie transformací klikněte naUpravit poslední krok .
  2. Proveďte požadovanou změnu a klepněte na tlačítko Provést.

Získání kódu pro programové opětovné vytvoření aktuálního stavu widgetu jako datového rámce

scénář: Chcete získat kód Pythonu, který programově znovu vytvoří stav aktuálního widgetu reprezentovaný jako datový rámec pandas. Tento kód chcete spustit v jiné buňce v tomto sešitu nebo úplně jiném sešitu.

  1. Klikněte na Získat kód.

  2. V podokně Exportovat kód klikněte na Kopírovat kód. Kód je zkopírován do schránky vašeho systému.

  3. Vložte kód do jiné buňky v tomto sešitu nebo do jiného sešitu.

  4. Napište další kód pro práci s tímto datovým rámcem pandas programově a pak buňku spusťte. Pokud chcete například zobrazit obsah datového rámce, za předpokladu, že datový rámec je reprezentován programově df:

    # Your pasted code here, followed by...
    df
    

Omezení

Další informace najdete v části Známá omezení poznámkových bloků Databricks.

Další zdroje informací