Общие сведения о процессе обработки и анализа данных

Завершено

Распространенный способ извлечения аналитических сведений из данных — визуализация данных. Каждый раз, когда у вас есть сложные наборы данных, вам может потребоваться глубже и попытаться найти сложные шаблоны в данных.

Специалист по обработке и анализу данных позволяет обучать модели машинного обучения для поиска шаблонов в данных. Эти шаблоны можно использовать для создания новых аналитических сведений или прогнозов. Например, можно спрогнозировать ожидаемое количество продуктов, которые вы ожидаете продавать в ближайшие недели.

Хотя обучение модели важно, это не единственная задача в проекте обработки и анализа данных. Прежде чем изучать типичный процесс обработки и анализа данных, давайте рассмотрим распространенные модели машинного обучения, которые можно обучить.

Изучение распространенных моделей машинного обучения

Целью машинного обучения является обучение моделей, которые могут определять закономерности в больших объемах данных. Затем вы можете использовать шаблоны для прогнозирования, которые предоставляют вам новые аналитические сведения, о которых можно выполнять действия.

Возможности машинного обучения могут появиться бесконечными, поэтому начнем с понимания четырех распространенных типов моделей машинного обучения:

Diagram of the four common types of machine learning models.

  1. Классификация: прогнозирование категориального значения, например, может ли клиент обналичить.
  2. Регрессия: прогнозирование числового значения, например цены на продукт.
  3. Кластеризация: группирование аналогичных точек данных в кластеры или группы.
  4. Прогнозирование: прогнозирование будущих числовых значений на основе данных временных рядов, таких как ожидаемые продажи в ближайший месяц.

Чтобы решить, какой тип модели машинного обучения необходимо обучить, сначала необходимо понять бизнес-проблему и доступные вам данные.

Общие сведения о процессе обработки и анализа данных

Для обучения модели машинного обучения процесс обычно включает следующие действия:

Diagram of sequential steps in the data science process.

  1. Определите проблему: вместе с бизнес-пользователями и аналитиками определите, что модель должна прогнозировать и когда она успешно выполнена.
  2. Получите данные: найдите источники данных и получите доступ, сохраняя данные в Lakehouse.
  3. Подготовьте данные: изучите данные, считывая их из Lakehouse в записную книжку. Очистка и преобразование данных на основе требований модели.
  4. Обучение модели. Выбор алгоритма и значений гиперпараметров на основе проб и ошибок путем отслеживания экспериментов с помощью MLflow.
  5. Создание аналитических сведений: используйте пакетную оценку модели для создания запрошенных прогнозов.

Как специалист по обработке и анализу данных, большая часть времени тратится на подготовку данных и обучение модели. Как подготовить данные и какой алгоритм обучения модели может повлиять на успех вашей модели.

Вы можете подготовить и обучить модель с помощью библиотек с открытым исходным кодом, доступных для выбранного языка. Например, если вы работаете с Python, вы можете подготовить данные с помощью Pandas и Numpy, а также обучить модель с библиотеками, такими как Scikit-Learn, PyTorch или SynapseML.

При эксперименте необходимо сохранить обзор всех обученных моделей. Вы хотите понять, как выбор влияет на успех модели. Отслеживая эксперименты с помощью MLflow в Microsoft Fabric, вы можете легко управлять и развертывать обученные модели.