Введение
Apache Spark — это платформа параллельной обработки для крупномасштабной обработки данных и аналитики с открытым кодом. Spark стал популярным в сценариях обработки больших данных и доступен в нескольких реализациях платформы; включая Azure HDInsight, Azure Synapse Analytics и Microsoft Fabric.
В этом модуле рассматривается, как использовать Spark в Microsoft Fabric для приема, обработки и анализа данных в лейкхаусе. Хотя основные методы и код, описанные в этом модуле, являются общими для всех реализаций Spark, интегрированные средства и возможность работать с Spark в той же среде, что и другие службы данных в Microsoft Fabric, упрощают внедрение обработки данных на основе Spark в общее решение для анализа данных.