bamboolib
Ważny
Ta dokumentacja została wycofana i może nie zostać zaktualizowana. bamboolib jest przestarzały. Aby uzyskać pomoc dotyczącą generowania kodu, zobacz Databricks Assistant.
Notatka
aplikacja bamboolib jest obsługiwana w środowisku Databricks Runtime 11.3 LTS i nowszym.
bamboolib to składnik interfejsu użytkownika, który umożliwia analizowanie i przekształcanie danych bez kodu z poziomu notesu usługi Azure Databricks . bamboolib ułatwia użytkownikom pracę z danymi i przyspiesza typowe zadania dotyczące uzdatniania, eksploracji i wizualizacji danych. Gdy użytkownicy wykonują tego rodzaju zadania przy użyciu danych, narzędzie bamboolib automatycznie generuje kod Python w tle. Użytkownicy mogą udostępniać ten kod innym osobom, którzy mogą uruchamiać ten kod we własnych notesach, aby szybko odtworzyć te oryginalne zadania. Mogą również używać bamboolib do rozszerzania tych oryginalnych zadań z dodatkowymi zadaniami danych, bez konieczności znajomości sposobu pisania kodu. Ci, którzy mają doświadczenie w kodowaniu, mogą rozszerzyć ten kod, aby utworzyć jeszcze bardziej zaawansowane wyniki.
W tle bamboolib używa ipywidgets, który jest interaktywnym frameworkiem widżetów HTML dla jądra IPython. ipywidgets jest uruchamiane wewnątrz jądra IPython .
Treść
Wymagania
- Notes usługi Azure Databricks , który jest dołączony do klastra usługi Azure Databricks z Databricks Runtime 11.0 lub nowszym.
- Biblioteka
bamboolib
musi być dostępna dla notatnika.- Aby zainstalować z PyPI bibliotekę tylko w określonym klastrze, zobacz sekcję Biblioteki klastra.
- Aby użyć polecenia
%pip
do udostępnienia biblioteki tylko dla określonego notesu, zobacz Biblioteki Pythona z zakresem dla notesu.
Szybki start
Utwórz notebook w języku Python.
podłącz notebooka do klastra spełniającego wymagania .
W pierwszej komórce notesuwprowadź następujący kod, a następnie uruchom komórkę. Pomiń ten krok, jeśli bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.
%pip install bamboolib
W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
import bamboolib as bam
W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
bam
Notatka
Alternatywnie można wydrukować istniejącą ramkę danych biblioteki pandas, aby wyświetlić bibliotekę bamboolib do użycia z określoną ramą danych.
Przewodniki
Możesz użyć bamboolib samodzielnie lub z istniejącą ramką danych pandas.
Można używać bamboolib samodzielnie
W tym przewodniku użyjesz biblioteki bamboolib do wyświetlenia w notesie zawartości przykładowego zestawu danych sprzedaży. Następnie poeksperymentujesz z częścią powiązanego kodu notesu, który bamboolib automatycznie dla Ciebie generuje. Kończysz wykonując zapytanie i sortowanie kopii zawartości zbioru danych sprzedaży.
Utwórz notebook w języku Python.
podłącz notebooka do klastra spełniającego wymagania .
W pierwszej komórce notesuwprowadź następujący kod, a następnie uruchom komórkę. Pomiń ten krok, jeśli bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.
%pip install bamboolib
W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
import bamboolib as bam
W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
bam
Kliknij Załaduj fikcyjne dane.
W okienku Ładowanie fikcyjnych danych dla Załaduj fikcyjny zestaw danych na potrzeby testowania bamboolib, wybierz zestaw danych Zestaw danych sprzedaży.
Kliknij Wykonaj.
Wyświetl wszystkie wiersze, w których item_type jest Baby Food:
- Na liście
Akcje wyszukiwania wybierz Filtruj wiersze . - ** W okienku filtrowania wierszy, na liście Wybierz (powyżej gdzie), wybierz opcję Wybierz wiersze.
- Na poniższej liście gdziewybierz pozycję item_type.
- Na liście Wybierz obok pozycji item_typewybierz opcję posiada wartość(e).
- W polu Wybierz wartości obok ma wartości, wybierz jedzenie dla niemowląt.
- Kliknij Wykonaj.
- Na liście
Skopiuj automatycznie wygenerowany kod języka Python dla tego zapytania:
- Kliknij Copy Code poniżej podglądu danych.
Wklej i zmodyfikuj kod:
W czwartej komórce notesu wklej skopiowany kod. Powinien wyglądać następująco:
import pandas as pd df = pd.read_csv(bam.sales_csv) # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])]
Dodaj do tego kodu, aby wyświetlał tylko te wiersze, w których order_prio jest C, a następnie uruchom komórkę:
import pandas as pd df = pd.read_csv(bam.sales_csv) # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])] # Add the following code. # Step: Keep rows where order_prio is one of: C df = df.loc[df['order_prio'].isin(['C'])] df
Napiwek
Zamiast pisać ten kod, możesz również wykonać to samo, używając biblioteki bamboolib w trzeciej komórce, aby wyświetlić tylko te wiersze, w których order_prio jest C. Ten krok jest przykładem rozszerzenia kodu wygenerowanego wcześniej przez bibliotekę bamboolib.
Sortuj wiersze według regionu w kolejności rosnącej:
- W widżecie w czwartej komórce, na liście Akcje wyszukiwania, wybierz pozycję Sortuj wiersze.
- W okienku
Sortuj kolumny na liście wybierz pozycję region . - Na liście obok regionuwybierz pozycję rosnąco (A-Z).
- Kliknij Wykonaj.
Notatka
Jest to odpowiednik samodzielnego pisania następującego kodu:
df = df.sort_values(by=['region'], ascending=[True]) df
Można było również po prostu użyć bamboolib w trzeciej komórce, aby posortować wiersze według regionu w kolejności rosnącej. W tym kroku pokazano, jak za pomocą biblioteki bamboolib rozszerzyć pisany kod. W miarę używania biblioteki bamboolib automatycznie generuje dodatkowy kod w tle, dzięki czemu można dodatkowo rozszerzyć już rozszerzony kod!
Używanie biblioteki bamboolib z istniejącą ramą danych
W tym przewodniku użyjesz biblioteki bamboolib do wyświetlenia w notesie zawartości ramki danych biblioteki pandas. Ta ramka danych zawiera kopię przykładowego zestawu danych sprzedaży. Następnie poeksperymentujesz z częścią powiązanego kodu notesu, który bamboolib automatycznie dla Ciebie generuje. Dokończ wykonywanie zapytań i sortowanie części zawartości ramki danych.
Utwórz notebook w języku Python.
podłącz notebooka do klastra spełniającego wymagania .
W pierwszej komórce notesuwprowadź następujący kod, a następnie uruchom komórkę. Pomiń ten krok, jeśli bamboolib jest już zainstalowany w obszarze roboczym lub klastrze.
%pip install bamboolib
W drugiej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
import bamboolib as bam
W trzeciej komórce notesu wprowadź następujący kod, a następnie uruchom komórkę.
import pandas as pd df = pd.read_csv(bam.sales_csv) df
Należy pamiętać, że bamboolib obsługuje tylko ramki danych pandas. Aby przekonwertować ramkę danych PySpark na ramkę danych biblioteki pandas, wywołaj toPandas w ramce danych PySpark. Aby przekonwertować interfejs API biblioteki Pandas w ramce danych platformy Spark na ramkę danych biblioteki pandas, wywołaj to_pandas w interfejsie API biblioteki Pandas w ramce danych platformy Spark.
Kliknij , aby wyświetlić interfejs użytkownika bamboolib.
Wyświetl wszystkie wiersze, w których item_type jest Baby Food:
- Na liście
Akcje wyszukiwania wybierz Filtruj wiersze . - ** W okienku filtrowania wierszy, na liście Wybierz (powyżej gdzie), wybierz opcję Wybierz wiersze.
- Na poniższej liście gdziewybierz pozycję item_type.
- Na liście Wybierz obok pozycji item_typewybierz opcję posiada wartość(e).
- W polu Wybierz wartości obok ma wartości, wybierz jedzenie dla niemowląt.
- Kliknij Wykonaj.
- Na liście
Skopiuj automatycznie wygenerowany kod języka Python dla tego zapytania. Aby to zrobić, kliknij Skopiuj kod poniżej podglądu danych.
Wklej i zmodyfikuj kod:
W czwartej komórce notesu wklej skopiowany kod. Powinien wyglądać następująco:
# Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])]
Dodaj do tego kodu, aby wyświetlał tylko te wiersze, w których order_prio jest C, a następnie uruchom komórkę:
# Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])] # Add the following code. # Step: Keep rows where order_prio is one of: C df = df.loc[df['order_prio'].isin(['C'])] df
Napiwek
Zamiast pisać ten kod, możesz również wykonać to samo, używając biblioteki bamboolib w trzeciej komórce, aby wyświetlić tylko te wiersze, w których order_prio jest C. Ten krok jest przykładem rozszerzenia kodu wygenerowanego wcześniej przez bibliotekę bamboolib.
Sortuj wiersze według regionu w kolejności rosnącej:
a. W widżecie w czwartej komórce kliknij pozycję Sortuj wiersze.
- W okienku
Sortuj kolumny na liście wybierz pozycję region . - Na liście obok regionuwybierz pozycję rosnąco (A-Z).
- Kliknij Wykonaj.
Notatka
Jest to odpowiednik samodzielnego pisania następującego kodu:
df = df.sort_values(by=['region'], ascending=[True]) df
Można było również po prostu użyć bamboolib w trzeciej komórce, aby posortować wiersze według regionu w kolejności rosnącej. W tym kroku pokazano, jak za pomocą biblioteki bamboolib rozszerzyć pisany kod. W miarę używania biblioteki bamboolib automatycznie generuje dodatkowy kod w tle, dzięki czemu można dodatkowo rozszerzyć już rozszerzony kod!
- W okienku
Kluczowe zadania
W tej sekcji:
- Dodaj widżet do komórki
- Wyczyść widżetu
- zadania ładowania danych
- zadania związane z danymi
- Zadania historii działań na danych
- Pobierz kod, aby programowo odtworzyć bieżący stan widżetu jako ramkę danych
Dodawanie widżetu do komórki
Scenariusz: chcesz, aby widżet bamboolib był wyświetlany w komórce.
Jeśli bamboolib nie jest już zainstalowany w obszarze roboczym lub klastrze, uruchom następujący kod w komórce w notesie, najlepiej w pierwszej komórce.
%pip install bamboolib
Uruchom następujący kod w notesie, najlepiej w pierwszej lub drugiej komórce notesu:
import bamboolib as bam
opcja 1: w komórce, w której ma zostać wyświetlony widżet, dodaj następujący kod, a następnie uruchom komórkę:
bam
Widżet zostanie wyświetlony w komórce poniżej kodu.
Lub:
opcja 2: w komórce zawierającej odwołanie do pandas DataFrame, wyświetl DataFrame. Na przykład, biorąc pod uwagę następującą definicję ramki danych, uruchom komórkę:
import pandas as pd from datetime import datetime, date df = pd.DataFrame({ 'a': [ 1, 2, 3 ], 'b': [ 2., 3., 4. ], 'c': [ 'string1', 'string2', 'string3' ], 'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ], 'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ] }) df
Widżet zostanie wyświetlony w komórce poniżej kodu.
Należy pamiętać, że bamboolib obsługuje tylko ramki danych pandas. Aby przekonwertować ramkę danych PySpark na ramkę danych biblioteki pandas, wywołaj toPandas w ramce danych PySpark. Aby przekonwertować interfejs API biblioteki Pandas w ramce danych platformy Spark na ramkę danych biblioteki pandas, wywołaj to_pandas w interfejsie API biblioteki Pandas w ramce danych platformy Spark.
Wyczyść widżet
Scenariusz: chcesz wyczyścić zawartość widżetu, a następnie odczytać nowe dane do istniejącego widżetu.
opcja 1: uruchom następujący kod w komórce zawierającej widżet docelowy:
bam
Widżet czyści, a następnie ponownie wyświetla przyciski: Databricks: Odczyt pliku CSV z DBFS, Databricks: Załadowanie tabeli bazy danychoraz Załadowanie fikcyjnych danych.
Notatka
Jeśli zostanie wyświetlony błąd name 'bam' is not defined
, uruchom następujący kod w notesie (najlepiej w pierwszej komórce notesu), a następnie spróbuj ponownie:
import bamboolib as bam
opcja 2: w komórce zawierającej odwołanie do ramki danych biblioteki pandaswyświetl ponownie ramkę danych, uruchamiając komórkę ponownie. Widżet czyści, a następnie wyświetla nowe dane.
Zadania ładowania danych
W tej sekcji:
- Odczytaj zawartość przykładowego zestawu danych w widżecie
- odczytywanie zawartości pliku CSV do widżetu
- Odczytywanie zawartości tabeli bazy danych do widżetu
Odczytywanie zawartości przykładowego zestawu danych do widżetu
Scenariusz: Chcesz wczytać przykładowe dane do widżetu, na przykład dane sprzedaży, aby przetestować funkcje widżetu.
Kliknij Załaduj fikcyjne dane.
Notatka
Jeśli dane testowe nie są widoczne, wyczyść widżet za pomocą opcji 1 i spróbuj ponownie.
W panelu Załaduj fikcyjne dane, dla Załaduj fikcyjny zestaw danych do testowania bamboolib, wybierz nazwę zestawu danych, który chcesz załadować.
W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
Kliknij Wykonaj.
Widżet wyświetla zawartość zestawu danych.
Napiwek
Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innego przykładowego zestawu danych:
- W bieżącym widżecie kliknij kartę Załaduj fikcyjne dane.
- Wykonaj powyższe kroki, aby odczytać zawartość innego przykładowego zestawu danych do widżetu.
Odczytywanie zawartości pliku CSV do widżetu
Scenariusz: chcesz odczytać zawartość pliku CSV w obszarze roboczym usługi Azure Databricks do widżetu.
Kliknij Databricks: Odczyt pliku CSV zDBFS.
Notatka
Jeśli Databricks: odczyt pliku CSV z DBFS nie jest widoczny, wyczyść widżet za pomocą opcji 1 i spróbuj ponownie.
W okienku Odczytaj plik CSV z DBFS przeglądaj lokalizację zawierającą docelowy plik CSV.
Wybierz docelowy plik CSV.
Dla nazwy ramki danych , wprowadź nazwę identyfikatora programowego dla zawartości pliku CSV jako ramkę danych , lub pozostaw df jako domyślny identyfikator programowy.
W przypadku separatora wartości CSVwprowadź znak oddzielający wartości w pliku CSV lub pozostaw znak , (przecinek) jako separator wartości domyślnej.
W przypadku separatora dziesiętnegowprowadź znak oddzielający liczby dziesiętne w pliku CSV lub pozostaw . znak (kropka) jako separator wartości domyślnej.
W przypadku limitu wierszy : odczytaj pierwsze N wierszy — pozostaw puste bez limitu, wprowadź maksymalną liczbę wierszy do odczytu do widżetu lub pozostaw 100000 jako domyślną liczbę wierszy lub pozostaw to pole puste, aby nie określić limitu wierszy.
Kliknij pozycję Otwórz plik CSV.
Widżet wyświetla zawartość pliku CSV na podstawie określonych ustawień.
Napiwek
Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innego pliku CSV:
- W bieżącym widżecie kliknij kartę Odczytaj plik CSV z systemu plików DBFS.
- Wykonaj powyższe kroki, aby odczytać zawartość innego pliku CSV do widżetu.
Odczytywanie zawartości tabeli bazy danych do widżetu
Scenariusz: chcesz odczytać zawartość tabeli bazy danych w obszarze roboczym usługi Azure Databricks do widżetu.
Kliknij Databricks: Załaduj tabelę bazy danych.
Notatka
Jeśli Databricks: ładowanie tabeli bazy danych nie jest widoczne, wyczyść widżet opcją 1 i spróbuj ponownie.
W okienku Databricks: Ładowanie tabeli bazy danych dla Database — pozostaw puste dla domyślnej bazy danych, wprowadź nazwę bazy danych, w której znajduje się tabela docelowa, lub pozostaw to pole puste, aby określić domyślną bazę danych .
Dla Tablewprowadź nazwę tabeli docelowej.
W przypadku limitu wierszy : odczytaj pierwsze N wierszy — pozostaw puste bez limitu, wprowadź maksymalną liczbę wierszy do odczytu do widżetu lub pozostaw 100000 jako domyślną liczbę wierszy lub pozostaw to pole puste, aby nie określić limitu wierszy.
W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
Kliknij Wykonaj.
Widżet wyświetla zawartość tabeli na podstawie określonych ustawień.
Napiwek
Możesz przełączyć bieżący widżet, aby wyświetlić zawartość innej tabeli:
- W bieżącym widżecie kliknij kartę Databricks: Załaduj tabelę bazy danych.
- Wykonaj wcześniejsze kroki, aby odczytać zawartość innej tabeli w widżecie.
Zadania operacji danych
bamboolib oferuje ponad 50 działań na danych. Poniżej przedstawiono niektóre z bardziej typowych zadań dotyczących akcji danych na początek.
W tej sekcji:
- Wybierz kolumny
- Usuń kolumny
- Filtruj wiersze
- Sortuj wiersze
- Zadania grupowania wierszy i kolumn
- Usuń wiersze z brakującymi wartościami
- Usuń zduplikowane wiersze
- znajdź i zastąp brakujące wartości
- Utwórz formułę kolumny
Wybieranie kolumn
Scenariusz: chcesz wyświetlić tylko określone kolumny tabeli według nazwy, według typu danych lub zgodne z wyrażeniem regularnym. Na przykład w fikcyjnym zestawie danych Saleschcesz wyświetlić tylko kolumny item_type
i sales_channel
albo pokazać tylko kolumny zawierające ciąg _date
w nazwach kolumn.
- Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
- Wpisz , wybierz, a następnie wybierz . Wybierz lub upuść kolumny.
- Wybierz pozycję Wybierz lub upuść kolumny.
- W okienku Wybierz lub upuść kolumny, na liście rozwijanej Wybierz, wybierz pozycję Wybierz.
- Wybierz docelowe nazwy kolumn lub kryterium dołączania.
- W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
- Kliknij Wykonaj.
Usuwanie kolumn
Scenariusz: chcesz ukryć określone kolumny tabeli według nazwy, typu danych lub pasujące do określonego wyrażenia regularnego. Na przykład w fikcyjnym zestawie danych Saleschcesz ukryć kolumny order_prio
, order_date
i ship_date
albo ukryć wszystkie kolumny zawierające tylko wartości daty i godziny.
- Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
- Wpisz , następnie upuśći wybierz Wybierz lub upuść kolumny.
- Wybierz pozycję Wybierz lub upuść kolumny.
- W okienku Wybierz lub upuść kolumny, na liście rozwijanej Wybierz, wybierz Upuść.
- Wybierz docelowe nazwy kolumn lub kryterium dołączania.
- W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
- Kliknij Wykonaj.
Filtrowanie wierszy
Scenariusz: chcesz pokazać lub ukryć określone wiersze tabeli na podstawie kryteriów, takich jak określone wartości kolumn, które są zgodne lub brakujące. Na przykład w fikcyjnym zestawie danych Saleschcesz wyświetlić tylko te wiersze, w których wartość kolumny item_type
jest ustawiona na wartość Baby Food
.
- Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
- Wpisz filtr , a następnie wybierz Filtruj wiersze .
- Wybierz Filtruj wiersze.
- W okienku Filtruj wiersze, na liście rozwijanej Wybierz powyżej where, wybierz opcję Wybierz wiersze lub Usuń wiersze.
- Określ pierwsze kryterium filtru.
- Aby dodać inne kryterium filtru, kliknij dodaj waruneki określ następne kryterium filtru. Powtórz w razie potrzeby.
- W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
- Kliknij Wykonaj.
Sortowanie wierszy
Scenariusz: chcesz sortować wiersze tabeli na podstawie wartości w co najmniej jednej kolumnie. Na przykład w fikcyjnym zestawie danych Saleschcesz wyświetlić wiersze według wartości kolumny region
w kolejności alfabetycznej od A do Z.
- Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
- Wpisz sortuj, a następnie wybierz pozycję Sortuj wiersze.
- Wybierz Sortuj wiersze
- W okienku Sortuj kolumny wybierz pierwszą kolumnę do sortowania według i kolejność sortowania.
- Aby dodać inne kryterium sortowania, kliknij dodać kolumnęi określ następne kryterium sortowania. Powtórz w razie potrzeby.
- W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
- Kliknij Wykonaj.
Zadania dotyczące grupowania wierszy i kolumn
W tej sekcji:
- grupowanie wierszy i kolumn według pojedynczej funkcji agregującej
- grupowanie wierszy i kolumn według wielu funkcji agregujących
Grupowanie wierszy i kolumn według pojedynczej funkcji agregującej
Scenariusz: chcesz wyświetlić wyniki wierszy i kolumn według grup obliczeniowych i chcesz przypisać nazwy niestandardowe do tych grup. Na przykład w fikcyjnym zestawie danych Saleschcesz pogrupować wiersze według wartości kolumny country
, pokazując liczbę wierszy zawierających tę samą wartość country
i dając listę obliczonych liczb nazwę country_count
.
- Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
- Wpisz grupę, a następnie wybierz opcję Grupuj według i agreguj (ze zmianą nazwy).
- Wybierz , grupuj według i zagreguj (ze zmianą nazwy).
- W okienku Grupowanie z przemianowaniem kolumny wybierz kolumny do grupowania, pierwsze obliczenie i opcjonalnie określ nazwę dla kolumny obliczeniowej.
- Aby dodać kolejne obliczenie, kliknij dodać obliczenia, a następnie określ kolejną nazwę obliczeń i kolumny. Powtórz w razie potrzeby.
- Określ miejsce przechowywania wyniku.
- W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
- Kliknij Wykonaj.
Grupowanie wierszy i kolumn według wielu funkcji agregujących
Scenariusz: chcesz wyświetlić wyniki wierszy i kolumn według grup obliczeniowych. Na przykład, w fikcyjnym zestawie danych Saleschcesz pogrupować wiersze według wartości kolumn region
, country
i sales_channel
, pokazując liczby wierszy zawierających te same wartości region
i country
według sales_channel
, a także prezentując total_revenue
za pomocą unikatowych kombinacji region
, country
i sales_channel
.
- Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
- Wpisz grupę, a następnie wybierz Grupuj według i agreguj (domyślnie).
- Wybierz pozycję Grupuj według i zagreguj (ustawienie domyślne).
- W okienku widoku Grupuj według z kolumną o zmienionej nazwie wybierz kolumny do grupowania i pierwsze obliczenie.
- Aby dodać kolejne obliczenie, kliknij dodaj obliczeniei określ następne obliczenie. Powtórz w razie potrzeby.
- Określ miejsce przechowywania wyniku.
- W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
- Kliknij Wykonaj.
Usuwanie wierszy z brakującymi wartościami
Scenariusz: chcesz usunąć dowolny wiersz z brakującą wartością dla określonych kolumn. Na przykład w fikcyjnym zestawie danych Saleschcesz usunąć wszystkie wiersze z brakującą wartością item_type
.
- Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
- Wpisz upuść lub usuń , a następnie wybierz pozycję Upuść brakujące wartości.
- Wybierz pozycję Upuść brakujące wartości.
- W panelu Usuń brakujące wartości wybierz kolumny, aby usunąć wszystkie wiersze z brakującą wartością w danej kolumnie.
- W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
- Kliknij Wykonaj.
Usuwanie zduplikowanych wierszy
Scenariusz: chcesz usunąć dowolny wiersz zawierający zduplikowaną wartość dla określonych kolumn. Na przykład w fikcyjnym zestawie danych Saleschcesz usunąć wszystkie wiersze, które są dokładnie duplikatami siebie.
- Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
- Wprowadź , upuść lub usuń , a następnie wybierz Upuść/Usuń duplikaty.
- Wybierz Usuń duplikaty.
- W okienku Usuń duplikaty wybierz kolumny, aby usunąć dowolny wiersz, który ma zduplikowaną wartość dla tych kolumn, a następnie wybierz, czy zachować pierwszy lub ostatni wiersz zawierający zduplikowaną wartość.
- W nazwa ramki danychwprowadź nazwę identyfikatora programowego zawartości tabeli jako DataFramelub pozostaw df jako domyślny identyfikator programowy.
- Kliknij Wykonaj.
Znajdowanie i zastępowanie brakujących wartości
Scenariusz: chcesz zastąpić brakującą wartość wartością zastępczą dla dowolnego wiersza określonymi kolumnami. Na przykład w fikcyjnym zestawie danych Saleschcesz zastąpić każdą brakującą wartość w kolumnie item_type
wartością Unknown Item Type
.
- Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
- Wpisz , znajdź lub zastąp , a następnie wybierz opcję Znajdź i zastąp brakujące wartości.
- Wybierz pozycję Znajdź i zastąp brakujące wartości.
- W okienku Zastąp brakujące wartości, wybierz kolumny, dla których mają zastąpić brakujące wartości, a następnie określ wartość zastępczą.
- Kliknij Wykonaj.
Utwórz formułę kolumny
Scenariusz: chcesz utworzyć kolumnę używającą unikatowej formuły. Na przykład w fikcyjnym zestawie danych Saleschcesz utworzyć kolumnę o nazwie profit_per_unit
, która wyświetla wynik dzielenia wartości kolumny total_profit
przez wartość kolumny units_sold
dla każdego wiersza.
- Na karcie Dane , na liście rozwijanej Akcje wyszukiwania , wykonaj jedną z następujących czynności:
- Wpisz formułę , a następnie wybierz pozycję Nowa kolumna formuła.
- Wybierz pozycję Nowa formuła kolumny.
- W okienku Zastąp brakujące wartości, wybierz kolumny, dla których mają zastąpić brakujące wartości, a następnie określ wartość zastępczą.
- Kliknij Wykonaj.
Zadania związane z historią działań dotyczących danych
W tej sekcji:
- Wyświetl listę akcji wykonanych w widżecie
- Cofnij ostatnią akcję podjętą w widżecie
- wykonaj ponownie ostatnią akcję podjętą w widżetu
- Zmień najnowszą akcję podjętą w widżetu
Wyświetlanie listy akcji wykonanych w widżecie
Scenariusz: chcesz wyświetlić listę wszystkich zmian wprowadzonych w widżecie, począwszy od najnowszej zmiany.
Kliknij pozycję Historia. Lista akcji zostanie wyświetlona w okienku historii przekształceń
Cofanie ostatniej akcji podjętej w widżecie
Scenariusz: chcesz przywrócić najnowszą zmianę wprowadzoną w widżecie.
Wykonaj jedną z następujących czynności:
- Kliknij ikonę strzałki przeciwnie do ruchu wskazówek zegara.
- Kliknij Historia, a w panelu Historia przekształceń kliknij Cofnij ostatni krok.
Wykonaj ponownie najnowszą akcję podjętą w widżecie
Scenariusz: chcesz cofnąć ostatnie cofnięcie dokonane w widżecie.
Wykonaj jedną z następujących czynności:
- Kliknij ikonę strzałki zgodnie z ruchem wskazówek zegara.
- Kliknij pozycję Historia, a następnie w okienku historia przekształceń kliknij pozycję Odzyskaj ostatni krok.
Zmienianie ostatniej akcji podjętej w widżecie
Scenariusz: chcesz cofnąć najnowszą zmianę wprowadzoną w widżecie.
- Wykonaj jedną z następujących czynności:
- Kliknij ikonę ołówka.
- Kliknij pozycję Historia, a następnie w okienku przekształcenia kliknij pozycję Edytuj ostatni krok.
- Wprowadź żądaną zmianę, a następnie kliknij przycisk Wykonaj.
Pobieranie kodu w celu programowego ponownego utworzenia bieżącego stanu widżetu jako ramki danych
Scenariusz: chcesz uzyskać kod języka Python, który programowo odtwarza stan bieżącego widżetu reprezentowany jako ramka danych biblioteki pandas. Chcesz wykonać ten kod w innej komórce w tym skoroszycie lub całkowicie w innym skoroszycie.
Kliknij Pobierz kod.
W okienku Eksportuj kod kliknij Kopiuj kod. Kod został skopiowany do schowka systemu.
Wklej kod do innej komórki w tym skoroszycie lub w innym skoroszycie.
Napisz dodatkowy kod, aby pracować z tym DataFrame pandas w sposób programowy, a następnie uruchom komórkę. Na przykład aby wyświetlić zawartość ramki danych, zakładając, że ramka danych jest reprezentowana programowo przez
df
:# Your pasted code here, followed by... df
Ograniczenia
Aby uzyskać więcej informacji, zobacz Znane ograniczenia notatników Databricks.