Udostępnij za pośrednictwem


bamboolib

Ważny

Ta dokumentacja została wycofana i może nie zostać zaktualizowana. bamboolib jest przestarzały. Aby uzyskać pomoc dotyczącą generowania kodu, zobacz Databricks Assistant.

Notatka

aplikacja bamboolib jest obsługiwana w środowisku Databricks Runtime 11.3 LTS i nowszym.

bamboolib to składnik interfejsu użytkownika, który umożliwia analizowanie i przekształcanie danych bez kodu z poziomu notesu usługi Azure Databricks . bamboolib ułatwia użytkownikom pracę z danymi i przyspiesza typowe zadania dotyczące uzdatniania, eksploracji i wizualizacji danych. Gdy użytkownicy wykonują tego rodzaju zadania przy użyciu danych, narzędzie bamboolib automatycznie generuje kod Python w tle. Użytkownicy mogą udostępniać ten kod innym osobom, którzy mogą uruchamiać ten kod we własnych notesach, aby szybko odtworzyć te oryginalne zadania. Mogą również używać bamboolib do rozszerzania tych oryginalnych zadań z dodatkowymi zadaniami danych, bez konieczności znajomości sposobu pisania kodu. Ci, którzy mają doświadczenie w kodowaniu, mogą rozszerzyć ten kod, aby utworzyć jeszcze bardziej zaawansowane wyniki.

W tle bamboolib używa ipywidgets, który jest interaktywnym frameworkiem widżetów HTML dla jądra IPython. ipywidgets jest uruchamiane wewnątrz jądra IPython .

Treść

Wymagania

Szybki start

  1. Utwórz notebook w języku Python.

  2. podłącz notebooka do klastra spełniającego wymagania .

  3. W pierwszej komórce notesuwprowadź następujący kod, a następnie uruchom komórkę. Pomiń ten krok, jeśli bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.

    %pip install bamboolib
    
  4. W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    import bamboolib as bam
    
  5. W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    bam
    

    Notatka

    Alternatywnie można wydrukować istniejącą ramkę danych biblioteki pandas, aby wyświetlić bibliotekę bamboolib do użycia z określoną ramą danych.

  6. Kontynuuj wykonywanie kluczowych zadań .

Przewodniki

Możesz użyć bamboolib samodzielnie lub z istniejącą ramką danych pandas.

Można używać bamboolib samodzielnie

W tym przewodniku użyjesz biblioteki bamboolib do wyświetlenia w notesie zawartości przykładowego zestawu danych sprzedaży. Następnie poeksperymentujesz z częścią powiązanego kodu notesu, który bamboolib automatycznie dla Ciebie generuje. Kończysz wykonując zapytanie i sortowanie kopii zawartości zbioru danych sprzedaży.

  1. Utwórz notebook w języku Python.

  2. podłącz notebooka do klastra spełniającego wymagania .

  3. W pierwszej komórce notesuwprowadź następujący kod, a następnie uruchom komórkę. Pomiń ten krok, jeśli bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.

    %pip install bamboolib
    
  4. W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    import bamboolib as bam
    
  5. W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    bam
    
  6. Kliknij Załaduj fikcyjne dane.

  7. W okienku Ładowanie fikcyjnych danych dla Załaduj fikcyjny zestaw danych na potrzeby testowania bamboolib, wybierz zestaw danych Zestaw danych sprzedaży.

  8. Kliknij Wykonaj.

  9. Wyświetl wszystkie wiersze, w których item_type jest Baby Food:

    1. Na liście Akcje wyszukiwania wybierz Filtruj wiersze.
    2. ** W okienku filtrowania wierszy, na liście Wybierz (powyżej gdzie), wybierz opcję Wybierz wiersze.
    3. Na poniższej liście gdziewybierz pozycję item_type.
    4. Na liście Wybierz obok pozycji item_typewybierz opcję posiada wartość(e).
    5. W polu Wybierz wartości obok ma wartości, wybierz jedzenie dla niemowląt.
    6. Kliknij Wykonaj.
  10. Skopiuj automatycznie wygenerowany kod języka Python dla tego zapytania:

    1. Kliknij Copy Code poniżej podglądu danych.
  11. Wklej i zmodyfikuj kod:

    1. W czwartej komórce notesu wklej skopiowany kod. Powinien wyglądać następująco:

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Dodaj do tego kodu, aby wyświetlał tylko te wiersze, w których order_prio jest C, a następnie uruchom komórkę:

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Napiwek

    Zamiast pisać ten kod, możesz również wykonać to samo, używając biblioteki bamboolib w trzeciej komórce, aby wyświetlić tylko te wiersze, w których order_prio jest C. Ten krok jest przykładem rozszerzenia kodu wygenerowanego wcześniej przez bibliotekę bamboolib.

  12. Sortuj wiersze według regionu w kolejności rosnącej:

    1. W widżecie w czwartej komórce, na liście Akcje wyszukiwania, wybierz pozycję Sortuj wiersze.
    2. W okienku Sortuj kolumny na liście wybierz pozycję region.
    3. Na liście obok regionuwybierz pozycję rosnąco (A-Z).
    4. Kliknij Wykonaj.

    Notatka

    Jest to odpowiednik samodzielnego pisania następującego kodu:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Można było również po prostu użyć bamboolib w trzeciej komórce, aby posortować wiersze według regionu w kolejności rosnącej. W tym kroku pokazano, jak za pomocą biblioteki bamboolib rozszerzyć pisany kod. W miarę używania biblioteki bamboolib automatycznie generuje dodatkowy kod w tle, dzięki czemu można dodatkowo rozszerzyć już rozszerzony kod!

  13. Kontynuuj wykonywanie kluczowych zadań .

Używanie biblioteki bamboolib z istniejącą ramą danych

W tym przewodniku użyjesz biblioteki bamboolib do wyświetlenia w notesie zawartości ramki danych biblioteki pandas. Ta ramka danych zawiera kopię przykładowego zestawu danych sprzedaży. Następnie poeksperymentujesz z częścią powiązanego kodu notesu, który bamboolib automatycznie dla Ciebie generuje. Dokończ wykonywanie zapytań i sortowanie części zawartości ramki danych.

  1. Utwórz notebook w języku Python.

  2. podłącz notebooka do klastra spełniającego wymagania .

  3. W pierwszej komórce notesuwprowadź następujący kod, a następnie uruchom komórkę. Pomiń ten krok, jeśli bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.

    %pip install bamboolib
    
  4. W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    import bamboolib as bam
    
  5. W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.

    import pandas as pd
    
    df = pd.read_csv(bam.sales_csv)
    df
    

    Należy pamiętać, że bamboolib obsługuje tylko ramki danych pandas. Aby przekonwertować ramkę danych PySpark na ramkę danych biblioteki pandas, wywołaj toPandas w ramce danych PySpark. Aby przekonwertować interfejs API biblioteki Pandas w ramce danych platformy Spark na ramkę danych biblioteki pandas, wywołaj to_pandas w interfejsie API biblioteki Pandas w ramce danych platformy Spark.

  6. Kliknij , aby wyświetlić interfejs użytkownika bamboolib.

  7. Wyświetl wszystkie wiersze, w których item_type jest Baby Food:

    1. Na liście Akcje wyszukiwania wybierz Filtruj wiersze.
    2. ** W okienku filtrowania wierszy, na liście Wybierz (powyżej gdzie), wybierz opcję Wybierz wiersze.
    3. Na poniższej liście gdziewybierz pozycję item_type.
    4. Na liście Wybierz obok pozycji item_typewybierz opcję posiada wartość(e).
    5. W polu Wybierz wartości obok ma wartości, wybierz jedzenie dla niemowląt.
    6. Kliknij Wykonaj.
  8. Skopiuj automatycznie wygenerowany kod języka Python dla tego zapytania. Aby to zrobić, kliknij Skopiuj kod poniżej podglądu danych.

  9. Wklej i zmodyfikuj kod:

    1. W czwartej komórce notesu wklej skopiowany kod. Powinien wyglądać następująco:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Dodaj do tego kodu, aby wyświetlał tylko te wiersze, w których order_prio jest C, a następnie uruchom komórkę:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Napiwek

    Zamiast pisać ten kod, możesz również wykonać to samo, używając biblioteki bamboolib w trzeciej komórce, aby wyświetlić tylko te wiersze, w których order_prio jest C. Ten krok jest przykładem rozszerzenia kodu wygenerowanego wcześniej przez bibliotekę bamboolib.

  10. Sortuj wiersze według regionu w kolejności rosnącej:

    a. W widżecie w czwartej komórce kliknij pozycję Sortuj wiersze.

    1. W okienku Sortuj kolumny na liście wybierz pozycję region.
    2. Na liście obok regionuwybierz pozycję rosnąco (A-Z).
    3. Kliknij Wykonaj.

    Notatka

    Jest to odpowiednik samodzielnego pisania następującego kodu:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Można było również po prostu użyć bamboolib w trzeciej komórce, aby posortować wiersze według regionu w kolejności rosnącej. W tym kroku pokazano, jak za pomocą biblioteki bamboolib rozszerzyć pisany kod. W miarę używania biblioteki bamboolib automatycznie generuje dodatkowy kod w tle, dzięki czemu można dodatkowo rozszerzyć już rozszerzony kod!

  11. Kontynuuj wykonywanie kluczowych zadań .

Kluczowe zadania

W tej sekcji:

Dodawanie widżetu do komórki

Scenariusz: chcesz, aby widżet bamboolib był wyświetlany w komórce.

  1. Upewnij się, że notebook spełnia wymagania dla bamboolib.

  2. Jeśli bamboolib nie jest już zainstalowany w obszarze roboczym lub klastrze, uruchom następujący kod w komórce w notesie, najlepiej w pierwszej komórce.

    %pip install bamboolib
    
  3. Uruchom następujący kod w notesie, najlepiej w pierwszej lub drugiej komórce notesu:

    import bamboolib as bam
    
  4. opcja 1: w komórce, w której ma zostać wyświetlony widżet, dodaj następujący kod, a następnie uruchom komórkę:

    bam
    

    Widżet zostanie wyświetlony w komórce poniżej kodu.

    Lub:

    opcja 2: w komórce zawierającej odwołanie do pandas DataFrame, wyświetl DataFrame. Na przykład, biorąc pod uwagę następującą definicję ramki danych, uruchom komórkę:

    import pandas as pd
    from datetime import datetime, date
    
    df = pd.DataFrame({
      'a': [ 1, 2, 3 ],
      'b': [ 2., 3., 4. ],
      'c': [ 'string1', 'string2', 'string3' ],
      'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
      'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
    })
    
    df
    

    Widżet zostanie wyświetlony w komórce poniżej kodu.

    Należy pamiętać, że bamboolib obsługuje tylko ramki danych pandas. Aby przekonwertować ramkę danych PySpark na ramkę danych biblioteki pandas, wywołaj toPandas w ramce danych PySpark. Aby przekonwertować interfejs API biblioteki Pandas w ramce danych platformy Spark na ramkę danych biblioteki pandas, wywołaj to_pandas w interfejsie API biblioteki Pandas w ramce danych platformy Spark.

Wyczyść widżet

Scenariusz: chcesz wyczyścić zawartość widżetu, a następnie odczytać nowe dane do istniejącego widżetu.

opcja 1: uruchom następujący kod w komórce zawierającej widżet docelowy:

bam

Widżet czyści, a następnie ponownie wyświetla przyciski: Databricks: Odczyt pliku CSV z DBFS, Databricks: Załadowanie tabeli bazy danychoraz Załadowanie fikcyjnych danych.

Notatka

Jeśli zostanie wyświetlony błąd name 'bam' is not defined, uruchom następujący kod w notesie (najlepiej w pierwszej komórce notesu), a następnie spróbuj ponownie:

import bamboolib as bam

opcja 2: w komórce zawierającej odwołanie do ramki danych biblioteki pandaswyświetl ponownie ramkę danych, uruchamiając komórkę ponownie. Widżet czyści, a następnie wyświetla nowe dane.

Zadania ładowania danych

W tej sekcji:

Odczytywanie zawartości przykładowego zestawu danych do widżetu

Scenariusz: Chcesz wczytać przykładowe dane do widżetu, na przykład dane sprzedaży, aby przetestować funkcje widżetu.

  1. Kliknij Załaduj fikcyjne dane.

    Notatka

    Jeśli dane testowe nie są widoczne, wyczyść widżet za pomocą opcji 1 i spróbuj ponownie.

  2. W panelu Załaduj fikcyjne dane, dla Załaduj fikcyjny zestaw danych do testowania bamboolib, wybierz nazwę zestawu danych, który chcesz załadować.

  3. W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.

  4. Kliknij Wykonaj.

    Widżet wyświetla zawartość zestawu danych.

Napiwek

Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innego przykładowego zestawu danych:

  1. W bieżącym widżecie kliknij kartę Załaduj fikcyjne dane.
  2. Wykonaj powyższe kroki, aby odczytać zawartość innego przykładowego zestawu danych do widżetu.

Odczytywanie zawartości pliku CSV do widżetu

Scenariusz: chcesz odczytać zawartość pliku CSV w obszarze roboczym usługi Azure Databricks do widżetu.

  1. Kliknij Databricks: Odczyt pliku CSV zDBFS.

    Notatka

    Jeśli Databricks: odczyt pliku CSV z DBFS nie jest widoczny, wyczyść widżet za pomocą opcji 1 i spróbuj ponownie.

  2. W okienku Odczytaj plik CSV z DBFS przeglądaj lokalizację zawierającą docelowy plik CSV.

  3. Wybierz docelowy plik CSV.

  4. Dla nazwy ramki danych , wprowadź nazwę identyfikatora programowego dla zawartości pliku CSV jako ramkę danych , lub pozostaw df jako domyślny identyfikator programowy.

  5. W przypadku separatora wartości CSVwprowadź znak oddzielający wartości w pliku CSV lub pozostaw znak , (przecinek) jako separator wartości domyślnej.

  6. W przypadku separatora dziesiętnegowprowadź znak oddzielający liczby dziesiętne w pliku CSV lub pozostaw . znak (kropka) jako separator wartości domyślnej.

  7. W przypadku limitu wierszy : odczytaj pierwsze N wierszy — pozostaw puste bez limitu, wprowadź maksymalną liczbę wierszy do odczytu do widżetu lub pozostaw 100000 jako domyślną liczbę wierszy lub pozostaw to pole puste, aby nie określić limitu wierszy.

  8. Kliknij pozycję Otwórz plik CSV.

    Widżet wyświetla zawartość pliku CSV na podstawie określonych ustawień.

Napiwek

Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innego pliku CSV:

  1. W bieżącym widżecie kliknij kartę Odczytaj plik CSV z systemu plików DBFS.
  2. Wykonaj powyższe kroki, aby odczytać zawartość innego pliku CSV do widżetu.

Odczytywanie zawartości tabeli bazy danych do widżetu

Scenariusz: chcesz odczytać zawartość tabeli bazy danych w obszarze roboczym usługi Azure Databricks do widżetu.

  1. Kliknij Databricks: Załaduj tabelę bazy danych.

    Notatka

    Jeśli Databricks: ładowanie tabeli bazy danych nie jest widoczne, wyczyść widżet opcją 1 i spróbuj ponownie.

  2. W okienku Databricks: Ładowanie tabeli bazy danych dla Database — pozostaw puste dla domyślnej bazy danych, wprowadź nazwę bazy danych, w której znajduje się tabela docelowa, lub pozostaw to pole puste, aby określić domyślną bazę danych .

  3. Dla Tablewprowadź nazwę tabeli docelowej.

  4. W przypadku limitu wierszy : odczytaj pierwsze N wierszy — pozostaw puste bez limitu, wprowadź maksymalną liczbę wierszy do odczytu do widżetu lub pozostaw 100000 jako domyślną liczbę wierszy lub pozostaw to pole puste, aby nie określić limitu wierszy.

  5. W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.

  6. Kliknij Wykonaj.

    Widżet wyświetla zawartość tabeli na podstawie określonych ustawień.

Napiwek

Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innej tabeli:

  1. W bieżącym widżecie kliknij kartę Databricks: Załaduj tabelę bazy danych.
  2. Wykonaj wcześniejsze kroki, aby odczytać zawartość innej tabeli w widżecie.

Zadania operacji danych

bamboolib oferuje ponad 50 działań na danych. Poniżej przedstawiono niektóre z bardziej typowych zadań dotyczących akcji danych na początek.

W tej sekcji:

Wybieranie kolumn

Scenariusz: chcesz wyświetlić tylko określone kolumny tabeli według nazwy, według typu danych lub zgodne z wyrażeniem regularnym. Na przykład w fikcyjnym zestawie danych Saleschcesz wyświetlić tylko kolumny item_type i sales_channel albo pokazać tylko kolumny zawierające ciąg _date w nazwach kolumn.

  1. Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
    • Wpisz , wybierz, a następnie wybierz . Wybierz lub upuść kolumny.
    • Wybierz pozycję Wybierz lub upuść kolumny.
  2. W okienku Wybierz lub upuść kolumny, na liście rozwijanej Wybierz, wybierz pozycję Wybierz.
  3. Wybierz docelowe nazwy kolumn lub kryterium dołączania.
  4. W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
  5. Kliknij Wykonaj.

Usuwanie kolumn

Scenariusz: chcesz ukryć określone kolumny tabeli według nazwy, typu danych lub pasujące do określonego wyrażenia regularnego. Na przykład w fikcyjnym zestawie danych Saleschcesz ukryć kolumny order_prio, order_datei ship_date albo ukryć wszystkie kolumny zawierające tylko wartości daty i godziny.

  1. Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
    • Wpisz , następnie upuśći wybierz Wybierz lub upuść kolumny.
    • Wybierz pozycję Wybierz lub upuść kolumny.
  2. W okienku Wybierz lub upuść kolumny, na liście rozwijanej Wybierz, wybierz Upuść.
  3. Wybierz docelowe nazwy kolumn lub kryterium dołączania.
  4. W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
  5. Kliknij Wykonaj.

Filtrowanie wierszy

Scenariusz: chcesz pokazać lub ukryć określone wiersze tabeli na podstawie kryteriów, takich jak określone wartości kolumn, które są zgodne lub brakujące. Na przykład w fikcyjnym zestawie danych Saleschcesz wyświetlić tylko te wiersze, w których wartość kolumny item_type jest ustawiona na wartość Baby Food.

  1. Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
    • Wpisz filtr , a następnie wybierz Filtruj wiersze .
    • Wybierz Filtruj wiersze.
  2. W okienku Filtruj wiersze, na liście rozwijanej Wybierz powyżej where, wybierz opcję Wybierz wiersze lub Usuń wiersze.
  3. Określ pierwsze kryterium filtru.
  4. Aby dodać inne kryterium filtru, kliknij dodaj waruneki określ następne kryterium filtru. Powtórz w razie potrzeby.
  5. W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
  6. Kliknij Wykonaj.

Sortowanie wierszy

Scenariusz: chcesz sortować wiersze tabeli na podstawie wartości w co najmniej jednej kolumnie. Na przykład w fikcyjnym zestawie danych Saleschcesz wyświetlić wiersze według wartości kolumny region w kolejności alfabetycznej od A do Z.

  1. Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
    • Wpisz sortuj, a następnie wybierz pozycję Sortuj wiersze.
    • Wybierz Sortuj wiersze
  2. W okienku Sortuj kolumny wybierz pierwszą kolumnę do sortowania według i kolejność sortowania.
  3. Aby dodać inne kryterium sortowania, kliknij dodać kolumnęi określ następne kryterium sortowania. Powtórz w razie potrzeby.
  4. W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
  5. Kliknij Wykonaj.

Zadania dotyczące grupowania wierszy i kolumn

W tej sekcji:
Grupowanie wierszy i kolumn według pojedynczej funkcji agregującej

Scenariusz: chcesz wyświetlić wyniki wierszy i kolumn według grup obliczeniowych i chcesz przypisać nazwy niestandardowe do tych grup. Na przykład w fikcyjnym zestawie danych Saleschcesz pogrupować wiersze według wartości kolumny country, pokazując liczbę wierszy zawierających tę samą wartość country i dając listę obliczonych liczb nazwę country_count.

  1. Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
    • Wpisz grupę, a następnie wybierz opcję Grupuj według i agreguj (ze zmianą nazwy).
    • Wybierz , grupuj według i zagreguj (ze zmianą nazwy).
  2. W okienku Grupowanie z przemianowaniem kolumny wybierz kolumny do grupowania, pierwsze obliczenie i opcjonalnie określ nazwę dla kolumny obliczeniowej.
  3. Aby dodać kolejne obliczenie, kliknij dodać obliczenia, a następnie określ kolejną nazwę obliczeń i kolumny. Powtórz w razie potrzeby.
  4. Określ miejsce przechowywania wyniku.
  5. W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
  6. Kliknij Wykonaj.
Grupowanie wierszy i kolumn według wielu funkcji agregujących

Scenariusz: chcesz wyświetlić wyniki wierszy i kolumn według grup obliczeniowych. Na przykład, w fikcyjnym zestawie danych Saleschcesz pogrupować wiersze według wartości kolumn region, countryi sales_channel, pokazując liczby wierszy zawierających te same wartości region i country według sales_channel, a także prezentując total_revenue za pomocą unikatowych kombinacji region, countryi sales_channel.

  1. Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
    • Wpisz grupę, a następnie wybierz Grupuj według i agreguj (domyślnie).
    • Wybierz pozycję Grupuj według i zagreguj (ustawienie domyślne).
  2. W okienku widoku Grupuj według z kolumną o zmienionej nazwie wybierz kolumny do grupowania i pierwsze obliczenie.
  3. Aby dodać kolejne obliczenie, kliknij dodaj obliczeniei określ następne obliczenie. Powtórz w razie potrzeby.
  4. Określ miejsce przechowywania wyniku.
  5. W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
  6. Kliknij Wykonaj.

Usuwanie wierszy z brakującymi wartościami

Scenariusz: chcesz usunąć dowolny wiersz z brakującą wartością dla określonych kolumn. Na przykład w fikcyjnym zestawie danych Saleschcesz usunąć wszystkie wiersze z brakującą wartością item_type.

  1. Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
    • Wpisz upuść lub usuń , a następnie wybierz pozycję Upuść brakujące wartości.
    • Wybierz pozycję Upuść brakujące wartości.
  2. W panelu Usuń brakujące wartości wybierz kolumny, aby usunąć wszystkie wiersze z brakującą wartością w danej kolumnie.
  3. W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
  4. Kliknij Wykonaj.

Usuwanie zduplikowanych wierszy

Scenariusz: chcesz usunąć dowolny wiersz zawierający zduplikowaną wartość dla określonych kolumn. Na przykład w fikcyjnym zestawie danych Saleschcesz usunąć wszystkie wiersze, które są dokładnie duplikatami siebie.

  1. Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
    • Wprowadź , upuść lub usuń , a następnie wybierz Upuść/Usuń duplikaty.
    • Wybierz Usuń duplikaty.
  2. W okienku Usuń duplikaty wybierz kolumny, aby usunąć dowolny wiersz, który ma zduplikowaną wartość dla tych kolumn, a następnie wybierz, czy zachować pierwszy lub ostatni wiersz zawierający zduplikowaną wartość.
  3. W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
  4. Kliknij Wykonaj.

Znajdowanie i zastępowanie brakujących wartości

Scenariusz: chcesz zastąpić brakującą wartość wartością zastępczą dla dowolnego wiersza określonymi kolumnami. Na przykład w fikcyjnym zestawie danych Saleschcesz zastąpić każdą brakującą wartość w kolumnie item_type wartością Unknown Item Type.

  1. Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
    • Wpisz , znajdź lub zastąp , a następnie wybierz opcję Znajdź i zastąp brakujące wartości.
    • Wybierz pozycję Znajdź i zastąp brakujące wartości.
  2. W okienku Zastąp brakujące wartości, wybierz kolumny, dla których mają zastąpić brakujące wartości, a następnie określ wartość zastępczą.
  3. Kliknij Wykonaj.

Utwórz formułę kolumny

Scenariusz: chcesz utworzyć kolumnę używającą unikatowej formuły. Na przykład w fikcyjnym zestawie danych Saleschcesz utworzyć kolumnę o nazwie profit_per_unit, która wyświetla wynik dzielenia wartości kolumny total_profit przez wartość kolumny units_sold dla każdego wiersza.

  1. Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
    • Wpisz formułę , a następnie wybierz pozycję Nowa kolumna formuła.
    • Wybierz pozycję Nowa formuła kolumny.
  2. W okienku Zastąp brakujące wartości, wybierz kolumny, dla których mają zastąpić brakujące wartości, a następnie określ wartość zastępczą.
  3. Kliknij Wykonaj.

Zadania związane z historią działań dotyczących danych

W tej sekcji:

Wyświetlanie listy akcji wykonanych w widżecie

Scenariusz: chcesz wyświetlić listę wszystkich zmian wprowadzonych w widżecie, począwszy od najnowszej zmiany.

Kliknij pozycję Historia. Lista akcji zostanie wyświetlona w okienku historii przekształceń .

Cofanie ostatniej akcji podjętej w widżecie

Scenariusz: chcesz przywrócić najnowszą zmianę wprowadzoną w widżecie.

Wykonaj jedną z następujących czynności:

  • Kliknij ikonę strzałki przeciwnie do ruchu wskazówek zegara.
  • Kliknij Historia, a w panelu Historia przekształceń kliknij Cofnij ostatni krok.

Wykonaj ponownie najnowszą akcję podjętą w widżecie

Scenariusz: chcesz cofnąć ostatnie cofnięcie dokonane w widżecie.

Wykonaj jedną z następujących czynności:

  • Kliknij ikonę strzałki zgodnie z ruchem wskazówek zegara.
  • Kliknij pozycję Historia, a następnie w okienku historia przekształceń kliknij pozycję Odzyskaj ostatni krok.

Zmienianie ostatniej akcji podjętej w widżecie

Scenariusz: chcesz cofnąć najnowszą zmianę wprowadzoną w widżecie.

  1. Wykonaj jedną z następujących czynności:
    • Kliknij ikonę ołówka.
    • Kliknij pozycję Historia, a następnie w okienku przekształcenia kliknij pozycję Edytuj ostatni krok.
  2. Wprowadź żądaną zmianę, a następnie kliknij przycisk Wykonaj.

Pobieranie kodu w celu programowego ponownego utworzenia bieżącego stanu widżetu jako ramki danych

Scenariusz: chcesz uzyskać kod języka Python, który programowo odtwarza stan bieżącego widżetu reprezentowany jako ramka danych biblioteki pandas. Chcesz wykonać ten kod w innej komórce w tym skoroszycie lub całkowicie w innym skoroszycie.

  1. Kliknij Pobierz kod.

  2. W okienku Eksportuj kod kliknij Kopiuj kod. Kod został skopiowany do schowka systemu.

  3. Wklej kod do innej komórki w tym skoroszycie lub w innym skoroszycie.

  4. Napisz dodatkowy kod, aby pracować z tym DataFrame pandas w sposób programowy, a następnie uruchom komórkę. Na przykład aby wyświetlić zawartość ramki danych, zakładając, że ramka danych jest reprezentowana programowo przez df:

    # Your pasted code here, followed by...
    df
    

Ograniczenia

Aby uzyskać więcej informacji, zobacz Znane ograniczenia notatników Databricks.

Dodatkowe zasoby