Этап получения и понимания данных жизненного цикла процесса Обработка и анализ данных команды
В этой статье описаны цели, задачи и конечные результаты, связанные с этапом получения и анализа данных процесса обработки и анализа данных группы (TDSP). Этот процесс предоставляет рекомендуемый жизненный цикл, который ваша команда может использовать для структуры проектов обработки и анализа данных. Жизненный цикл описывает основные этапы, которые выполняет ваша команда, часто итеративно:
- Коммерческий аспект.
- Получение и анализ данных.
- Моделирование
- Развертывание
- Прием клиентом.
Ниже приведено визуальное представление жизненного цикла TDSP:
Цели
Целями этапа приобретения и понимания данных являются следующие задачи.
Создайте чистый высококачественный набор данных, который четко связан с целевыми переменными. Найдите набор данных в соответствующей среде аналитики, чтобы команда готова к этапу моделирования.
Разработать архитектуру решения для конвейера данных, который будет регулярно обновлять и оценивать данные.
Как выполнить задачи
Этап получения и понимания данных состоит из трех основных задач:
Прием данных в целевую аналитическую среду.
Изучите данные , чтобы определить, могут ли данные ответить на этот вопрос.
Настройка конвейера данных для оценки новых или регулярно обновляемых данных.
Прием данных
Настройте процесс перемещения данных из исходных расположений в целевые расположения, в которых выполняются операции аналитики, такие как обучение и прогнозирование.
Изучение данных
Прежде чем начинать обучение модели, нужно хорошо изучить имеющиеся данные. Реальные наборы данных часто шумны, отсутствуют или имеют множество других несоответствий. Вы можете использовать сводку данных и визуализацию для аудита качества данных и сбора данных для обработки данных, прежде чем он готов к моделированию. Часто этот процесс итеративный.
После того как вы удовлетворены качеством очищенных данных, следующим шагом будет лучше понять шаблоны в данных. Этот анализ данных поможет вам выбрать и подготовить прогнозную модель, соответствующую поставленной цели. Определите, сколько данных соответствует целевому объекту. Затем определите, есть ли у вашей команды достаточно данных, чтобы перейти к следующему этапу моделирования. Этот процесс также часто бывает итеративным. Возможно, потребуется найти новые источники данных с более точными или более актуальными данными, чтобы настроить набор данных, первоначально определенный на предыдущем этапе.
Настройка конвейера данных
Помимо приема и очистки данных, обычно необходимо настроить процесс для оценки новых данных или регулярного обновления данных в рамках текущего процесса обучения. Для оценки данных можно использовать конвейер данных или рабочий процесс. Мы рекомендуем конвейер, использующий Фабрика данных Azure.
На этом этапе создается архитектура решения для конвейера данных. Конвейер создается параллельно с следующим этапом проекта обработки и анализа данных. В зависимости от бизнес-потребностей и ограничений существующих систем, в которых интегрируется это решение, конвейер может быть следующим:
- пакетный;
- выполняющий потоковую передачу или работающий в режиме реального времени;
- Гибридный трафик
Интеграция с MLflow
На этапе понимания данных можно использовать отслеживание экспериментов MLflow для отслеживания и документирования различных стратегий предварительной обработки данных и анализа аналитических данных.
Artifacts
На этом этапе ваша команда предоставляет следующее:
Отчет о качестве данных, содержащий сводки данных, связи между каждым атрибутом и целевым объектом, ранжированием переменных и т. д.
Архитектура решения, например схема или описание конвейера данных, который ваша команда использует для выполнения прогнозов на новых данных. Эта схема также содержит конвейер для повторного обучения модели на основе новых данных. При использовании шаблона структуры каталогов TDSP сохраните документ в каталоге проекта.
Решение контрольной точки. Перед началом полнофункциональное проектирование и построение моделей можно повторно оценить проект, чтобы определить, достаточно ли ожидаемое значение для продолжения его проведения. Например, вы можете быть готовы к продолжению, собрать больше данных или отказаться от проекта, если не удается найти данные, которые отвечают на вопросы.
Одноранговая литература
Исследователи публикуют исследования о TDSP в одноранговой литературе. Ссылки предоставляют возможность исследовать другие приложения или аналогичные идеи TDSP, включая этап приобретения данных и понимания жизненного цикла.
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Автор субъекта:
- Марк Табладильо | Старший архитектор облачных решений
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Связанные ресурсы
В этих статьях описаны другие этапы жизненного цикла TDSP: