Методология успеха реализации Synapse: оценка проекта пула Spark

Статья
06/01/2023

Примечание.

Эта статья входит в серию статей, посвященных успешному внедрению Azure Synapse, предпосылки к которому закладываются изначально. Общие сведения о серии см. в статье "Внедрение Azure Synapse — успешно по умолчанию".

Вы должны оценить проект пула Spark, чтобы выявить проблемы и проверить, что он соответствует рекомендациям и требованиям. Оценив проект до начала разработки решений, можно избежать блокирующих факторов и неожиданных изменений проекта. Так вы сможете соблюсти сроки проекта и остаться в рамках бюджета.

Apache Spark в Synapse позволяет выполнять параллельную обработку данных Apache Spark в Azure Synapse Analytics. Эта оценка содержит рекомендации о том, в каких случаях Apache Spark в Azure Synapse подходит (или не подходит) для вашей рабочей нагрузки. В ней описываются моменты, которые следует учитывать при оценке элементов проектирования решений, содержащих пулы Spark.

Анализ несоответствий

При планировании реализации пулов Spark в Azure Synapse сначала убедитесь, что они оптимально подходят для вашей рабочей нагрузки.

Учтите следующие моменты.

Требуется ли для рабочей нагрузки подготовка данных или инжиниринг данных?
- Apache Spark лучше всего подходит для рабочих нагрузок, требующих:
  - очистка данных;
  - преобразование частично структурированных данных, таких как XML, в реляционные;
  - сложное преобразование произвольного текста, например нечеткое совпадение или обработка естественного языка (NLP);
  - подготовка данных для машинного обучения (ML).
Рабочая нагрузка для подготовки данных или инжиниринга данных связана со сложными или простыми преобразованиями? Вам требуется подход с минимальным объемом кода или вообще без него?
- Для простых преобразований, таких как удаление столбцов, изменение типов данных столбцов или объединение наборов данных, рекомендуется создать конвейер Azure Synapse с помощью действия потока данных.
- При использовании действий потока данных вам требуется лишь минимальный объем кода для подготовки данных либо код не требуется вообще.
Требуется ли для рабочей нагрузки Машинное обучение на основе больших данных?
- Apache Spark хорошо подходит для работы с большими наборами данных, которые будут использоваться для Машинного обучения. Если вы используете небольшие наборы данных, рассмотрите возможность использования Машинного обучения Azure в качестве службы вычислений.
Вы планируете выполнять исследование данных или анализировать специализированные запросы к большим данным?
- Apache Spark в Azure Synapse предоставляет возможности изучения данных на основе Python, Scala, SQL, .NET. Однако если вам нужен полный функционал Transact-SQL (T-SQL), рассмотрите возможность использования бессерверного пула SQL.
У вас есть текущая рабочая нагрузка Spark или Hadoop и требуется ли единая платформа больших данных?
- Azure Synapse предоставляет единую аналитическую платформу для работы с большими данными. Существуют бессерверные пулы Spark и SQL для специализированных запросов, а также выделенный пул SQL для создания отчетов и обслуживания данных.
- Следует принять во внимание, что при переходе с рабочей нагрузки Spark или Hadoop из локальной среды (или другой облачной среды) может потребоваться провести рефакторинг.
- Если для переноса среды больших данных Apache из локальной среды в облако вы хотите использовать метод lift-and-shift и при этом следовать условиям строгого Соглашения об уровне обслуживания (SLA) для инжиниринга данных, рассмотрите возможность использования Azure HDInsight.

Следующие шаги

В следующей статье в серии об успешной реализации Azure Synapse, предусмотренной проектом, вы узнаете, как оценить план проекта современного хранилища данных перед началом проекта.

Дополнительные рекомендации см. в руководстве по Apache Spark для Azure Synapse.

Поделиться через

Методология успеха реализации Synapse: оценка проекта пула Spark

Анализ несоответствий

Рекомендации по архитектуре

Эффективность работы

Оптимизация производительности

Надежность

Безопасность

Следующие шаги

Обратная связь

Дополнительные ресурсы