Ускорение подготовки данных с помощью Data Wrangler в Microsoft Fabric
Средство Data Wrangler — это ресурс на основе записных книжек, который предоставляет иммерсивный интерфейс для анализа аналитических данных. Он объединяет отображение данных, например сетки, с динамической сводной статистикой, встроенными визуализациями и библиотекой общих операций очистки данных. Каждую операцию можно применить с помощью нескольких шагов. Вы можете обновить отображение данных в режиме реального времени и создать код в pandas или PySpark, который можно сохранить обратно в записную книжку в качестве повторной функции. В этой статье рассматривается изучение и преобразование пандовых кадров данных. Дополнительные сведения об использовании Data Wrangler в Кадрах данных Spark см . в этом ресурсе.
Необходимые компоненты
Получение подписки Microsoft Fabric. Или зарегистрируйте бесплатную пробную версию Microsoft Fabric.
Войдите в Microsoft Fabric.
Используйте переключатель интерфейса в левой части домашней страницы, чтобы перейти на интерфейс Synapse Обработка и анализ данных.
Ограничения
- Пользовательские операции кода в настоящее время поддерживаются только для pandas DataFrames.
- Отображение Wrangler данных лучше всего работает на больших мониторах, хотя можно свести к минимуму или скрыть различные части интерфейса, чтобы разместить небольшие экраны.
Запуск Wrangler данных
Вы можете запустить Data Wrangler непосредственно из записной книжки Microsoft Fabric для изучения и преобразования любых pandas или Spark DataFrame. Дополнительные сведения об использовании Data Wrangler с Кадрами данных Spark см . в этой статье. В этом фрагменте кода показано, как считывать примеры данных в кадр данных pandas:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
На вкладке "Главная" на ленте записной книжки используйте раскрывающийся список Data Wrangler, чтобы просмотреть активные кадры данных, доступные для редактирования. Выберите нужный объект в Data Wrangler.
Совет
Не удается открыть Wrangler, пока ядро записной книжки занято. Выполнение ячейки должно завершиться до запуска Wrangler данных, как показано на снимке экрана:
Выбор пользовательских примеров
Чтобы открыть пользовательский образец любого активного кадра данных с помощью Wrangler, выберите "Выбрать пользовательский пример" в раскрывающемся списке, как показано на снимке экрана:
Это запускает всплывающее окно с параметрами, чтобы указать размер требуемого образца (количество строк) и метод выборки (первые записи, последние записи или случайный набор). Первые 5000 строк кадра данных служат размером выборки по умолчанию, как показано на снимке экрана:
Просмотр сводной статистики
При загрузке Data Wrangler отображается описательный обзор выбранного кадра данных на панели "Сводка". В этом обзоре содержатся сведения о измерениях кадра данных, отсутствующих значениях и т. д. Выбор любого столбца в сетке Data Wrangler предложит панели "Сводка" обновить и отобразить описательную статистику о конкретном столбце. Краткие сведения о каждом столбце также доступны в заголовке.
Совет
Статистика и визуальные элементы для столбцов (как на панели "Сводка", так и в заголовках столбцов) зависят от типа данных столбца. Например, в заголовке столбца отображается бинированная гистограмма числового столбца, только если столбец приведение в виде числового типа, как показано на снимке экрана:
Просмотр операций очистки данных
Список действий по очистке данных можно найти на панели "Операции". На панели "Операции" выбор шага очистки данных запрашивает указать целевой столбец или столбцы, а также все необходимые параметры для выполнения шага. Например, запрос на числовое масштабирование столбца требует нового диапазона значений, как показано на снимке экрана:
Совет
Вы можете применить меньший выбор операций из меню каждого заголовка столбца, как показано на снимке экрана:
Предварительный просмотр и применение операций
Сетка отображения данных Wrangler автоматически просматривает результаты выбранной операции, а соответствующий код автоматически отображается на панели под сеткой. Чтобы зафиксировать предварительный просмотр кода, выберите "Применить" в любом месте. Чтобы удалить предварительный просмотр кода и попробовать новую операцию, нажмите кнопку "Отменить", как показано на снимке экрана:
После применения операции сетка отображения данных Wrangler и обновление сводной статистики для отражения результатов. Код отображается в запущенном списке зафиксированных операций, расположенных на панели "Очистка шагов", как показано на этом снимке экрана:
Совет
Вы всегда можете отменить последний примененный шаг. На панели "Очистка шагов" появится значок корзины, если наведите указатель мыши на последний примененный шаг, как показано на этом снимке экрана:
В этой таблице перечислены операции, поддерживаемые Wrangler data:
Операция | Description |
---|---|
Сортировать | Сортировка столбца по возрастанию или убыванию |
Фильтр | Фильтрация строк на основе одного или нескольких условий |
Одно горячее кодирование | Создание новых столбцов для каждого уникального значения в существующем столбце, указывающее на наличие или отсутствие этих значений на строку |
Одно горячее кодирование с разделителем | Разделение и одно горячее кодирование категориальных данных с помощью разделителя |
Изменение типа столбца | Изменение типа данных столбца |
Удаление столбца | Удаление одного или нескольких столбцов |
Выбор столбца | Выберите один или несколько столбцов, чтобы сохранить и удалить остальные |
Переименование столбца | Переименование столбца |
Удаление отсутствующих значений | Удаление строк с отсутствующими значениями |
Удаление повторяющихся строк | Удаление всех строк с повторяющимися значениями в одном или нескольких столбцах |
Заполнение отсутствующих значений | Замените ячейки отсутствующими значениями новым значением |
Поиск и замена | Замените ячейки точным шаблоном сопоставления |
Группировка по столбцам и статистическим выражениям | Группировать по значениям столбцов и агрегированным результатам |
Пробелы в полосе | Удаление пробелов из начала и конца текста |
Разделение текста | Разделение столбца на несколько столбцов на основе определяемого пользователем разделителя |
Преобразование текста в строчные буквы | Преобразование текста в строчные буквы |
Преобразование текста в верхний регистр | Преобразование текста в ВЕРХНИЙ РЕГИСТР |
Минимальное или максимальное масштабирование значений | Масштабирование числового столбца между минимальным и максимальным значением |
Заливка флэш-памяти | Автоматическое создание нового столбца на основе примеров, производных от существующего столбца |
Изменение дисплея
В любое время вы можете настроить интерфейс с помощью вкладки "Представления" на панели инструментов, расположенной над сеткой отображения Data Wrangler. Это может скрыть или отобразить различные панели на основе ваших настроек и размера экрана, как показано на этом снимке экрана:
Сохранение и экспорт кода
Панель инструментов над сеткой отображения данных Wrangler предоставляет параметры для сохранения созданного кода. Вы можете скопировать код в буфер обмена или экспортировать его в записную книжку в виде функции. Экспорт кода закрывает Data Wrangler и добавляет новую функцию в ячейку кода в записной книжке. Вы также можете скачать очищенный кадр данных в виде CSV-файла.
Совет
Wrangler создает код, который применяется только при ручном запуске новой ячейки, и он не перезаписывает исходный кадр данных, как показано на этом снимке экрана:
Затем можно запустить экспортируемый код, как показано на снимке экрана:
Связанный контент
- Чтобы попробовать Data Wrangler в Кадрах данных Spark, ознакомьтесь со следующей статьей
- Для демонстрации live-action data Wrangler в Fabric, ознакомьтесь с этим видео из наших друзей на Гай в кубе
- Чтобы попробовать Data Wrangler в Visual Studio Code, перейдите к Data Wrangler в VS Code
- Упустили ли у вас функцию? Поделитесь с нами. Предложить его на форуме "Идеи структуры"