U-SQL 개발자를 위한 Apache Spark 이해
중요
Azure Data Lake Analytics 2024년 2월 29일에 사용 중지되었습니다. 이 공지 사항을 통해 자세히 알아봅니다.
데이터 분석의 경우 organization Azure Synapse Analytics 또는 Microsoft Fabric을 사용할 수 있습니다.
Microsoft는 Azure Databricks, AzureHDInsight 및 Azure Data Lake Analytics 같은 여러 Analytics 서비스를 지원합니다. 개발자는 분석 파이프라인을 빌드할 때 오픈 소스 솔루션을 확실히 선호한다고 합니다. U-SQL 개발자가 Apache Spark를 이해하고 U-SQL 스크립트를 Apache Spark로 변환하는 방법을 이해하도록 돕기 위해 이 지침을 만들었습니다.
여기에는 수행할 수 있는 단계와 여러 대안이 나와 있습니다.
U-SQL을 Apache Spark로 변환하는 단계
작업 오케스트레이션 파이프라인을 변환합니다.
Azure Data Factory 사용하여 Azure Data Lake Analytics 스크립트를 오케스트레이션하는 경우 새 Spark 프로그램을 오케스트레이션하도록 조정해야 합니다.
U-SQL과 Spark에서 데이터를 관리하는 방법의 차이점을 이해합니다.
데이터를 Azure Data Lake Storage Gen1에서 Azure Data Lake Storage Gen2 이동하려면 파일 데이터와 카탈로그 유지 관리 데이터를 모두 복사해야 합니다. Azure Data Lake Analytics는 Azure Data Lake Storage Gen1만 지원합니다. 자세한 내용은 Spark 데이터 형식 이해를 참조하세요.
U-SQL 스크립트를 Spark로 변환합니다.
U-SQL 스크립트를 변환하기 전에 분석 서비스를 선택해야 합니다. 사용할 수 있는 컴퓨팅 서비스 중 일부는 다음과 같습니다.
- Azure Data Factory DataFlow 매핑 데이터 흐름은 데이터 엔지니어가 코드를 작성하지 않고도 그래픽 데이터 변환 논리를 개발할 수 있도록 하는 시각적으로 디자인된 데이터 변환입니다. 복잡한 사용자 코드를 실행하는 데 적합하지는 않지만 SQL과 유사한 기존 데이터 흐름 변환을 쉽게 나타낼 수 있습니다.
- Azure HDInsight Hive HDInsight의 Apache Hive는 ETL(추출, 변환 및 로드) 작업에 적합합니다. 즉, U-SQL 스크립트를 Apache Hive로 변환합니다.
- Apache Spark 엔진(예: Azure HDInsight Spark 또는 Azure Databricks) 즉, U-SQL 스크립트를 Spark로 변환합니다. 자세한 내용은 Spark 데이터 폼 이해를 참조하세요.
주의
Azure Databricks 및 Azure HDInsight Spark는 둘 다 클러스터 서비스이며 Azure Data Lake Analytics와 같은 서버리스 작업이 아닙니다. 적절한 비용/성능 비율을 얻기 위해 클러스터를 프로비저닝하는 방법과 비용을 최소화하기 위해 수명을 관리하는 방법을 고려해야 합니다. 이러한 서비스는 .NET으로 작성된 사용자 코드와 성능 특성이 다르므로 래퍼를 작성하거나 지원되는 언어로 코드를 다시 작성해야 합니다. 자세한 내용은 Spark 데이터 형식 이해, U-SQL 개발자를 위한 Apache Spark 코드 개념 이해, .NET for Apache Spark를 참조하세요.