Поделиться через


бамбуклиб

Важный

Эта документация выведена из эксплуатации и, возможно, больше не будет обновляться. бамбуклиб не рекомендуется. За помощью в создании кода обращайтесь к Помощнику по Databricks.

Заметка

bamboolib поддерживается в Databricks Runtime 11.3 LTS и более поздних версиях.

bamboolib — это компонент пользовательского интерфейса, который позволяет выполнять анализ и преобразование данных без программирования из записной книжки Azure Databricks . bamboolib помогает пользователям проще работать с данными и ускорить общие задачи обработки, изучения и визуализации. Когда пользователи выполняют такого рода задачи с их данными, bamboolib автоматически создает код на языке Python в фоновом режиме. Пользователи могут совместно использовать этот код с другими пользователями, которые могут запускать этот код в своих записных книжках, чтобы быстро воспроизвести эти исходные задачи. Они также могут использовать бамбуклиб для расширения этих исходных задач с дополнительными задачами данных, все без необходимости знать, как кодировать. Те, кто имеет опыт написания кода, могут расширить этот код, чтобы создать еще более сложные результаты.

За кулисами бамбуклиб использует ipywidgets, которая является интерактивной платформой мини-приложений HTML для ядра IPython. ipywidgets работает внутри ядра IPython.

Содержание

Требования

Краткое руководство

  1. Создайте Python-ноутбук.

  2. Подключите ноутбук к кластеру, который соответствует требованиям .

  3. В первой ячейке записной книжкивведите следующий код, а затем запустить ячейку. Пропустите этот шаг, если библиотека bamboolib уже установлена в рабочей области или в кластере.

    %pip install bamboolib
    
  4. Во второй ячейке записной книжки введите следующий код и запустите ячейку.

    import bamboolib as bam
    
  5. В третьей ячейке записной книжки введите следующий код и запустите ячейку.

    bam
    

    Заметка

    Кроме того, можно вывести на экран существующий DataFrame Pandas, чтобы использовать bamboolib с этим конкретным DataFrame.

  6. Продолжайте выполнение ключевых задач .

Пошаговое руководство

Вы можете использовать бамбуклиб самостоятельно или с существующимdataFrame pandas.

Используйте bamboolib самостоятельно

В этом пошаговом руководстве вы используете bamboolib для отображения в записной книжке содержимого примера набора данных о продажах. Затем вы экспериментируете с некоторым связанным кодом записной книжки, который bamboolib автоматически создает для вас. Завершите процесс, выполняя запрос и сортировку копии данных о продажах.

  1. Создайте Python-ноутбук.

  2. Подключите ноутбук к кластеру, который соответствует требованиям .

  3. В первой ячейке записной книжкивведите следующий код, а затем запустить ячейку. Пропустите этот шаг, если библиотека bamboolib уже установлена в рабочей области или в кластере.

    %pip install bamboolib
    
  4. Во второй ячейке записной книжки введите следующий код и запустите ячейку.

    import bamboolib as bam
    
  5. В третьей ячейке записной книжки введите следующий код и запустите ячейку.

    bam
    
  6. Нажмите Загрузить фиктивные данные.

  7. В области загрузить фиктивные данные для загрузки фиктивного набора данных для тестирования бамбуклибавыберите набор данных Sales.

  8. Нажмите Выполнить.

  9. Показать все строки, где item_typeдетское питание:

    1. В списке действий поиска выберите фильтр строк .
    2. В области Фильтрация строк в списке Выберите (выше где), выберите Выбрать строки.
    3. В списке ниже , где, выберите тип элемента.
    4. В списке выберите рядом с item_typeвариант с значением(ями).
    5. В поле Выберите значения рядом с имеет значения, выберите детское питание.
    6. Нажмите Выполнить.
  10. Скопируйте автоматически созданный код Python для этого запроса:

    1. Cick Копировать код под предварительным просмотром данных.
  11. Вставьте и измените код:

    1. В четвертую ячейку записной книжки вставьте скопированный код. Это должно выглядеть следующим образом:

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Добавьте в этот код, чтобы он отображал только те строки, в которых order_prio равно C, а затем запустите ячейку.

      import pandas as pd
      df = pd.read_csv(bam.sales_csv)
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Совет

    Вместо написания этого кода можно также сделать то же самое, просто используя бамбуклиб в третьей ячейке, чтобы отобразить только те строки, где order_prioC. Этот шаг является примером расширения кода, который бамбуклиб автоматически создал ранее.

  12. Сортировка строк по регионам по возрастанию:

    1. В виджете в четвертой ячейке в списке действий поиска выберите Сортировка строк.
    2. В области сортировки в списке Выбор столбца выберите регион.
    3. В списке рядом с региономвыберите по возрастанию (A-Z).
    4. Нажмите Выполнить.

    Заметка

    Это эквивалентно написанию следующего кода самостоятельно:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Вы также могли бы использовать бамбуклиб в третьей ячейке для сортировки строк по региону по возрастанию. На этом шаге показано, как использовать бамбуклиб для расширения написанного кода. При использовании bamboolib он автоматически создает дополнительный код для вас в фоновом режиме, чтобы можно было дополнительно расширить уже расширенный код!

  13. Продолжайте выполнение ключевых задач .

Использование bamboolib с существующим DataFrame

В этом пошаговом руководстве вы используете bamboolib для отображения в записной книжке содержимого DataFrame pandas. Эта таблица данных содержит копию примера данных о продажах. Затем вы экспериментируете с некоторым связанным кодом записной книжки, который bamboolib автоматически создает для вас. Вы завершаете выполнение запроса и сортировку некоторых частей DataFrame.

  1. Создайте Python-ноутбук.

  2. Подключите ноутбук к кластеру, который соответствует требованиям .

  3. В первой ячейке записной книжкивведите следующий код, а затем запустить ячейку. Пропустите этот шаг, если библиотека bamboolib уже установлена в рабочей области или в кластере.

    %pip install bamboolib
    
  4. Во второй ячейке записной книжки введите следующий код и запустите ячейку.

    import bamboolib as bam
    
  5. В третьей ячейке записной книжки введите следующий код и запустите ячейку.

    import pandas as pd
    
    df = pd.read_csv(bam.sales_csv)
    df
    

    Обратите внимание, что бамбуклиб поддерживает только панды DataFrames. Чтобы преобразовать DataFrame PySpark в DataFrame pandas, вызовите toPandas на DataFrame PySpark. Чтобы преобразовать Pandas API на Spark DataFrame в DataFrame pandas, вызовите to_pandas на Pandas API на Spark DataFrame.

  6. Щелкните Показать пользовательский интерфейс bamboolib.

  7. Показать все строки, где item_typeдетское питание:

    1. В списке действий поиска выберите фильтр строк .
    2. В области Фильтрация строк в списке Выберите (выше где), выберите Выбрать строки.
    3. В списке ниже , где, выберите тип элемента.
    4. В списке выберите рядом с item_typeвариант с значением(ями).
    5. В поле Выберите значения рядом с имеет значения, выберите детское питание.
    6. Нажмите Выполнить.
  8. Скопируйте автоматически созданный код Python для этого запроса. Для этого щелкните Копировать код под предварительным просмотром данных.

  9. Вставьте и измените код:

    1. В четвертую ячейку записной книжки вставьте скопированный код. Это должно выглядеть следующим образом:

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
    2. Добавьте в этот код, чтобы он отображал только те строки, в которых order_prio равно C, а затем запустите ячейку.

      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
      
      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
      

    Совет

    Вместо написания этого кода можно также сделать то же самое, просто используя бамбуклиб в третьей ячейке, чтобы отобразить только те строки, где order_prioC. Этот шаг является примером расширения кода, который бамбуклиб автоматически создал ранее.

  10. Сортировка строк по регионам по возрастанию:

    a. В виджете, в четвертой ячейке, щелкните Сортировка строк.

    1. В области сортировки в списке Выбор столбца выберите регион.
    2. В списке рядом с региономвыберите по возрастанию (A-Z).
    3. Нажмите Выполнить.

    Заметка

    Это эквивалентно написанию следующего кода самостоятельно:

    df = df.sort_values(by=['region'], ascending=[True])
    df
    

    Вы также могли бы использовать бамбуклиб в третьей ячейке для сортировки строк по региону по возрастанию. На этом шаге показано, как использовать бамбуклиб для расширения написанного кода. При использовании bamboolib он автоматически создает дополнительный код для вас в фоновом режиме, чтобы можно было дополнительно расширить уже расширенный код!

  11. Продолжайте выполнение ключевых задач .

Ключевые задачи

В этом разделе:

Добавление мини-приложения в ячейку

Сценарий: вы хотите, чтобы мини-приложение bamboolib отображалось в ячейке.

  1. Убедитесь, что записная книжка соответствует требованиям для bamboolib.

  2. Если Bamboolib еще не установлен в рабочей области или кластере, выполните следующий код в ячейке ноутбука, предпочтительно в первой ячейке.

    %pip install bamboolib
    
  3. Выполните следующий код в записной книжке, желательно, в первой или второй ячейке записной книжки:

    import bamboolib as bam
    
  4. вариант 1: в ячейке, в которой будет отображаться мини-приложение, добавьте следующий код и запустите ячейку:

    bam
    

    Мини-приложение отображается в ячейке под кодом.

    Или:

    вариант 2: в ячейке, содержащей ссылку на DataFrame pandas, выведите DataFrame. Например, воспользовавшись следующим определением DataFrame, запустите ячейку.

    import pandas as pd
    from datetime import datetime, date
    
    df = pd.DataFrame({
      'a': [ 1, 2, 3 ],
      'b': [ 2., 3., 4. ],
      'c': [ 'string1', 'string2', 'string3' ],
      'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
      'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
    })
    
    df
    

    Мини-приложение отображается в ячейке под кодом.

    Обратите внимание, что бамбуклиб поддерживает только панды DataFrames. Чтобы преобразовать DataFrame PySpark в DataFrame pandas, вызовите toPandas на DataFrame PySpark. Чтобы преобразовать Pandas API на Spark DataFrame в DataFrame pandas, вызовите to_pandas на Pandas API на Spark DataFrame.

Очистить мини-приложение

сценария. Вы хотите очистить содержимое виджета, а затем загрузить новые данные в существующий виджет.

вариант 1: выполните следующий код в ячейке, содержащей целевое мини-приложение:

bam

Мини-приложение очищает и снова отображает кнопки Databricks: чтение CSV-файла из DBFS, Databricks: загрузка таблицы базы данныхи загрузка фиктивных данных.

Заметка

Если появится ошибка name 'bam' is not defined, выполните следующий код в записной книжке (желательно в первой ячейке записной книжки), а затем повторите попытку:

import bamboolib as bam

вариант 2. В ячейке, содержащей ссылку на pandas DataFrame, распечатайте таблицу данных, выполнив ячейку снова. Мини-приложение очищает и отображает новые данные.

Задачи загрузки данных

В этом разделе:

Прочитать содержимое примерного набора данных в виджет

Сценарий: Вы хотите загрузить некоторые примерные данные в виджет, например, фиктивные данные о продажах, чтобы проверить функциональные возможности виджета.

  1. Нажмите Загрузить фиктивные данные.

    Заметка

    Если Загрузка пустых данных не отображается, очистите мини-приложение с помощью параметра 1 и повторите попытку.

  2. В области Загрузка фиктивных данныхдля загрузки фиктивного набора данных для тестирования бамбуклибавыберите имя набора данных, который требуется загрузить.

  3. Для имени кадра данныхвведите имя программного идентификатора содержимого таблицы в качестве кадра данныхили оставьте df в качестве программного идентификатора по умолчанию.

  4. Нажмите Выполнить.

    Мини-приложение отображает содержимое набора данных.

Совет

Вы можете переключить текущее мини-приложение, чтобы отобразить содержимое другого примера набора данных:

  1. В данном виджете щелкните вкладку Загрузить фиктивные данные.
  2. Выполните описанные выше действия для загрузки содержимого дополнительного примера набора данных в виджет.

Импорт содержимого CSV-файла в мини-приложение

сценарий: Вы хотите прочитать содержимое CSV-файла в виджет в рабочей области Azure Databricks.

  1. Нажмите Databricks: откройте CSV-файл из DBFS.

    Заметка

    Если Databricks: чтение CSV-файла из DBFS не отображается, очистите виджет с Опцией 1 и повторите попытку.

  2. В панели «Чтение CSV из DBFS» перейдите в расположение, содержащее целевой CSV-файл.

  3. Выберите целевой CSV-файл.

  4. Для имени DataFrameвведите имя программного идентификатора для содержимого CSV-файла как DataFrameили оставьте df в качестве идентификатора по умолчанию.

  5. Для разделителя значений CSV введите символ, разделяющий значения в CSV-файле, или оставьте символ (запятой) в качестве разделителя значений по умолчанию.

  6. Для десятичного разделителявведите символ, разделяющий десятичные знаки в CSV-файле, или оставьте . (точка) символ в качестве разделителя значений по умолчанию.

  7. Для ограничения строк: чтобы прочитать первые N строк, оставьте это поле пустым для отсутствия ограничений, введите максимальное количество строк для считывания в виджет или оставьте значение 100000 в качестве числа строк по умолчанию, либо оставьте это поле пустым, чтобы не устанавливать ограничение на количество строк.

  8. Щелкните Открыть CSV-файл.

    Мини-приложение отображает содержимое CSV-файла на основе указанных параметров.

Совет

Вы можете переключить текущее мини-приложение, чтобы отобразить содержимое другого CSV-файла:

  1. В текущем мини-приложении щелкните вкладку Чтение CSV из DBFS.
  2. Выполните описанные выше действия, чтобы прочитать содержимое другого CSV-файла в мини-приложение.

Загрузите содержимое таблицы базы данных в виджет

Сценарий: Вы хотите считать содержимое таблицы базы данных в рабочей области Azure Databricks в виджет.

  1. Щелкните по Databricks: загрузите таблицу базы данных.

    Заметка

    Если таблица базы данных Databricks: не видна, очистите виджет, выбрав Опцию 1, и повторите попытку.

  2. В области Databricks: загрузка таблицы базы данных для базы данных — оставьте пустым для базы данных по умолчанию, введите имя базы данных, в которой находится целевая таблица, или оставьте это поле пустым, чтобы указать базу данных по умолчанию.

  3. Для таблицы введите имя целевой таблицы.

  4. Для ограничения строк: чтобы прочитать первые N строк, оставьте это поле пустым для отсутствия ограничений, введите максимальное количество строк для считывания в виджет или оставьте значение 100000 в качестве числа строк по умолчанию, либо оставьте это поле пустым, чтобы не устанавливать ограничение на количество строк.

  5. Для имени кадра данныхвведите имя программного идентификатора содержимого таблицы в качестве кадра данныхили оставьте df в качестве программного идентификатора по умолчанию.

  6. Нажмите Выполнить.

    Мини-приложение отображает содержимое таблицы на основе указанных параметров.

Совет

Вы можете переключить текущее мини-приложение, чтобы отобразить содержимое другой таблицы:

  1. В текущем мини-приложении щелкните вкладку Databricks: загрузка таблицы базы данных.
  2. Выполните описанные выше действия, чтобы прочитать содержимое другой таблицы в мини-приложение.

Задачи обработки данных

Bamboolib предлагает более 50 действий с данными. Ниже приведены некоторые из наиболее распространенных задач действий по началу работы с данными.

В этом разделе:

Выбор столбцов

Сценарий: Вы хотите отображать только определенные столбцы таблицы по имени, типу данных или соответствующие определенному регулярному выражению. Например, в фиктивном наборе данных Salesнеобходимо отобразить только столбцы item_type и sales_channel или отобразить только столбцы, содержащие строку _date в именах столбцов.

  1. На вкладке Данные в раскрывающемся списке действий поиска выполните одно из следующих действий:
    • Введите , выберите, а затем выберите . Выберите или удалите столбцы.
    • Выберите Выбрать или удалить столбцы.
  2. В области Выбор или удаление столбцов в раскрывающемся списке Выбор выберите Выбрать.
  3. Выберите имена целевых столбцов или критерий включения.
  4. Для имени кадра данныхвведите имя программного идентификатора содержимого таблицы в качестве кадра данныхили оставьте df в качестве программного идентификатора по умолчанию.
  5. Нажмите Выполнить.

Удаление столбцов

Сценарий: Вы хотите скрыть определенные столбцы таблицы по имени, по типу данных или которые совпадают с некоторым регулярным выражением. Например, в фиктивном наборе данных Salesнеобходимо скрыть order_prio, order_dateи столбцы ship_date или скрыть все столбцы, содержащие только значения даты и времени.

  1. На вкладке Данные в раскрывающемся списке действий поиска выполните одно из следующих действий:
    • Введите , затем введите, а затем выберите , выберите или пропустите столбцы.
    • Выберите Выбрать или удалить столбцы.
  2. В области Выбор или удаление столбцов в раскрывающемся списке Выбор выберите удалить.
  3. Выберите имена целевых столбцов или критерий включения.
  4. Для имени кадра данныхвведите имя программного идентификатора содержимого таблицы в качестве кадра данныхили оставьте df в качестве программного идентификатора по умолчанию.
  5. Нажмите Выполнить.

Фильтрация строк

сценарий: Вы хотите отобразить или скрыть определенные строки таблицы на основе таких критериев, как совпадение или отсутствие определенных значений в столбцах. Например, в фиктивном наборе данных Salesнеобходимо отобразить только те строки, в которых значение столбца item_type имеет значение Baby Food.

  1. На вкладке Данные в раскрывающемся списке действий поиска выполните одно из следующих действий:
    • Введите фильтр , а затем выберите Фильтровать строки .
    • Выберите фильтровать строки.
  2. В области Фильтрация строк в раскрывающемся списке Выберите выше , гдевыберите Выбрать строки или Удалить строки.
  3. Укажите первый критерий фильтра.
  4. Чтобы добавить еще один критерий фильтра, щелкните добавить условиеи укажите следующий критерий фильтра. Повторите по желанию.
  5. Для имени кадра данныхвведите имя программного идентификатора содержимого таблицы в качестве кадра данныхили оставьте df в качестве программного идентификатора по умолчанию.
  6. Нажмите Выполнить.

Сортировка строк

Сценарий: Вы хотите сортировать строки таблицы на основании значений одного или нескольких столбцов. Например, в фиктивном наборе данных Salesнеобходимо отобразить строки по значениям столбца region в алфавитном порядке от A до Z.

  1. На вкладке Данные в раскрывающемся списке действий поиска выполните одно из следующих действий:
    • Введите , сортируйте, а затем выберите Сортировка строк.
    • Выберите Отсортировать строки.
  2. В области сортировки столбцов выберите первый столбец для сортировки и порядок сортировки.
  3. Чтобы добавить еще один критерий сортировки, щелкните добавить столбеци укажите следующий критерий сортировки. Повторите по желанию.
  4. Для имени кадра данныхвведите имя программного идентификатора содержимого таблицы в качестве кадра данныхили оставьте df в качестве программного идентификатора по умолчанию.
  5. Нажмите Выполнить.

Группировка задач по строкам и столбцам.

В этом разделе:
Группировать строки и столбцы по одной агрегатной функции

сценарий. Вы хотите отобразить результаты по строкам и столбцам с помощью вычисляемых групп и присвоить индивидуальные имена этим группам. Например, в фиктивном наборе данных Salesнеобходимо сгруппировать строки по значениям столбца country, отображая числа строк, содержащих то же country значение, и присвоить списку вычисляемых счетчиков имя country_count.

  1. На вкладке Данные в раскрывающемся списке действий поиска выполните одно из следующих действий:
    • Введите группу, затем выберите группировку с агрегацией и переименованием.
    • Выберите , чтобы сгруппировать пои агрегировать (с переименованием).
  2. В рамке "Группировка с переименованием столбца" выберите столбцы для группировки, первое вычисление, и при необходимости укажите имя для вычисленного столбца.
  3. Чтобы добавить другое вычисление, щелкните добавить вычислениеи укажите следующее вычисление и имя столбца. Повторите по желанию.
  4. Укажите место хранения результата.
  5. Для имени кадра данныхвведите имя программного идентификатора содержимого таблицы в качестве кадра данныхили оставьте df в качестве программного идентификатора по умолчанию.
  6. Нажмите Выполнить.
Группировать строки и столбцы по нескольким агрегатным функциям

Сценарий: Вы хотите отобразить результаты строк и столбцов с помощью вычисляемых группировок. Например, в фиктивном наборе данных Salesнеобходимо сгруппировать строки по значениям столбцов region, countryи sales_channel, чтобы показать количество строк, содержащих одинаковые значения region и country по отношению к sales_channel, а также total_revenue для уникальных сочетаний region, countryи sales_channel.

  1. На вкладке Данные в раскрывающемся списке действий поиска выполните одно из следующих действий:
    • Введите группу, а затем выберите группировать и агрегировать (по умолчанию).
    • Выберите Группировать по и агрегировать (по умолчанию).
  2. В области «Группировка с переименованием столбца» выберите столбцы для группировки и первое вычисление.
  3. Чтобы добавить другое вычисление, щелкните добавить вычислениеи укажите следующее вычисление. Повторите по желанию.
  4. Укажите место хранения результата.
  5. Для имени кадра данныхвведите имя программного идентификатора содержимого таблицы в качестве кадра данныхили оставьте df в качестве программного идентификатора по умолчанию.
  6. Нажмите Выполнить.

Удаление строк с отсутствующими значениями

сценарий: Удалите любую строку, имеющую отсутствующее значение для указанных столбцов. Например, в фиктивном наборе данных Salesнеобходимо удалить все строки с отсутствующим значением item_type.

  1. На вкладке Данные в раскрывающемся списке действий поиска выполните одно из следующих действий:
    • Введите удалить или удалить, а затем выберите Удалить отсутствующие значения.
    • Выберите Удалить отсутствующие значения.
  2. В области Удаление отсутствующих значений выберите столбцы, чтобы удалить любую строку с отсутствующим значением для этого столбца.
  3. Для имени кадра данныхвведите имя программного идентификатора содержимого таблицы в качестве кадра данныхили оставьте df в качестве программного идентификатора по умолчанию.
  4. Нажмите Выполнить.

Удаление повторяющихся строк

сценарии: необходимо удалить любую строку, которая имеет дублированное значение для указанных столбцов. Например, в фиктивном наборе данных Salesнеобходимо удалить все строки, которые являются точными дубликатами друг друга.

  1. На вкладке Данные в раскрывающемся списке действий поиска выполните одно из следующих действий:
    • Введите drop или удалите, а затем выберите Drop/Remove duplicates.
    • Выберите Удалить дубликаты.
  2. В области Удаление дубликатов выберите столбцы, чтобы удалить любую строку с повторяющимся значением в этих столбцах, а затем выберите, оставить первую или последнюю строку.
  3. Для имени кадра данныхвведите имя программного идентификатора содержимого таблицы в качестве кадра данныхили оставьте df в качестве программного идентификатора по умолчанию.
  4. Нажмите Выполнить.

Поиск и замена отсутствующих значений

сценарий: Вы хотите заменить отсутствующее значение значением замены в строках с указанными столбцами. Например, в фиктивном наборе данных Salesнеобходимо заменить любую строку, в которой пропущено значение в столбце item_type, на значение Unknown Item Type.

  1. На вкладке Данные в раскрывающемся списке действий поиска выполните одно из следующих действий:
    • Введите для поиска или для замены, а затем выберите , чтобы найти и заменить отсутствующие значения.
    • Выберите Найти и заменить отсутствующие значения.
  2. В области Заменить отсутствующие значения выберите столбцы для замены отсутствующих значений, а затем укажите значение замены.
  3. Нажмите Выполнить.

Создание формулы столбца

Сценарий: Вы хотите создать столбец, использующий уникальную формулу. Например, в фиктивном наборе данных Salesнеобходимо создать столбец с именем profit_per_unit, который отображает результат деления значения столбца total_profit по значению столбца units_sold для каждой строки.

  1. На вкладке Данные в раскрывающемся списке действий поиска выполните одно из следующих действий:
    • Введите формулу, а затем выберите новую формулу для столбца.
    • Выберите формулу нового столбца.
  2. В области Заменить отсутствующие значения выберите столбцы для замены отсутствующих значений, а затем укажите значение замены.
  3. Нажмите Выполнить.

Задачи, связанные с историей действий с данными

В этом разделе:

Просмотр списка действий, выполненных в мини-приложении

сценарии. Вы хотите просмотреть список всех изменений, внесенных в мини-приложение, начиная с последнего изменения.

Щелкните История. Список действий отображается в панели истории преобразований .

Отмена последнего действия, предпринятого в мини-приложении

Сценарий: Вы хотите отменить последнее изменение, внесенное в мини-приложение.

Выполните одно из следующих действий:

  • Щелкните значок со стрелкой против часовой стрелки.
  • Щелкните История, а затем в области журнал преобразований, щелкните Отменить последний шаг.

Повторное повторение последнего действия, предпринятого в мини-приложении

сценарий: Вы хотите отменить последний откат, произведённый в виджете.

Выполните одно из следующих действий:

  • Щелкните значок стрелки по часовой стрелке.
  • Щелкните журнали в области журнала преобразований щелкните Восстановить последний шаг.

Изменение последних действий, выполненных в мини-приложении

Сценарий : Вы хотите отменить последнее внесенное изменение, которое было совершено в виджете.

  1. Выполните одно из следующих действий:
    • Щелкните значок карандаша.
    • Щелкните История, а затем в области История преобразований щелкните Изменить последний шаг.
  2. Внесите необходимые изменения и нажмите кнопку Выполнить.

Получить код для программного воспроизведения текущего состояния мини-приложения в виде DataFrame

сценарий: Вы хотите получить код на Python, который программно воссоздает состояние текущего мини-приложения, представленного в виде объекта DataFrame библиотеки pandas. Этот код нужно выполнить в другой ячейке в данной книге или в совершенно другой книге.

  1. Нажмите получить код.

  2. В области Экспорт кода нажмите Копировать код. Код был скопирован в буфер обмена вашей системы.

  3. Вставьте код в другую ячейку этой рабочей книги или в другую рабочую книгу.

  4. Напишите дополнительный код для программной работы с этим DataFrame pandas, а затем запустите ячейку. Например, чтобы отобразить содержимое кадра данных, предположим, что кадр данных представлен программным способом df:

    # Your pasted code here, followed by...
    df
    

Ограничения

См. ограничения, известные в Databricks Notebooks для дополнительной информации.

Дополнительные ресурсы