Apache Spark API용 참조
Azure Databricks는 빅 데이터 및 기계 학습을 위한 통합 분석 엔진인 Apache Spark를 기반으로 합니다. 자세한 내용은 Azure Databricks의 Apache Spark를 참조 하세요.
Apache Spark에는 여러 언어로 100개가 넘는 연산자를 포함하는 큰 데이터 세트에 작동하기 위한 DataFrame API가 있습니다.
- Python 개발자를 위한 PySpark API. 자습서: Apache Spark DataFrames를 사용하여 데이터 로드 및 변환을 참조하세요. 주요 클래스는 다음과 같습니다.
- SparkSession - Dataset 및 DataFrame API를 사용하여 Spark를 프로그래밍하기 위한 진입점입니다.
- DataFrame - 명명된 열로 그룹화된 데이터의 분산 컬렉션입니다. DataFrame 및 DataFrame 기반 MLlib를 참조하세요.
- R 개발자를 위한 SparkR API. 주요 클래스는 다음과 같습니다.
- SparkSession - SparkSession은 SparkR의 진입점입니다. 시작점: SparkSession을 참조하세요.
- SparkDataFrame - 명명된 열로 그룹화된 데이터의 분산 컬렉션입니다. Datasets 및 DataFrames, DataFrames 만들기 및 SparkDataFrames 만들기를 참조하세요.
- Scala 개발자를 위한 Scala API 입니다. 주요 클래스는 다음과 같습니다.
- SparkSession - Dataset 및 DataFrame API를 사용하여 Spark를 프로그래밍하기 위한 진입점입니다. 시작점: SparkSession을 참조하세요.
- 데이터 세트 - 기능 또는 관계형 작업을 사용하여 병렬로 변환할 수 있는 강력한 형식의 도메인별 개체 컬렉션입니다. 각
Dataset
에는 행의Dataset
인 DataFrame이라는 형식화되지 않은 보기도 있습니다. Datasets 및 DataFrames, Datasets 만들기, DataFrames 만들기 및 DataFrame 함수를 참조하세요.
- Java 개발자를 위한 Java API 입니다. 주요 클래스는 다음과 같습니다.
- SparkSession - Dataset 및 DataFrame API를 사용하여 Spark를 프로그래밍하기 위한 진입점입니다. 시작점: SparkSession을 참조하세요.
- 데이터 세트 - 기능 또는 관계형 작업을 사용하여 병렬로 변환할 수 있는 강력한 형식의 도메인별 개체 컬렉션입니다. 각
Dataset
에는 행의Dataset
인 DataFrame이라는 형식화되지 않은 보기도 있습니다. Datasets 및 DataFrames, Datasets 만들기, DataFrames 만들기 및 DataFrame 함수를 참조하세요.
Azure Databricks에서 Apache Spark API를 사용하는 방법을 알아보려면 다음을 참조하세요.
- Azure Databricks의 PySpark
- R 개발자용 Azure Databricks
- Scala 개발자를 위한 Azure Databricks
- Java의 경우 Java 코드를 JAR 작업으로 실행할 수 있습니다.