서버리스 컴퓨팅 제한 사항
이 문서에서는 Notebook 및 작업에 대한 서버리스 컴퓨팅의 현재 제한 사항을 설명합니다. 가장 중요한 고려 사항에 대한 개요로 시작한 다음, 포괄적인 제한 사항 참조 목록을 제공합니다.
제한 사항 개요
새 워크로드를 만들거나 서버리스 컴퓨팅으로 워크로드를 마이그레이션하기 전에 먼저 다음 제한 사항을 고려합니다.
- Python 및 SQL은 유일하게 지원되는 언어입니다.
- Spark 연결 API만 지원됩니다. Spark RDD API는 지원되지 않습니다.
- JAR 라이브러리는 지원되지 않습니다. 해결 방법은 서버리스 컴퓨팅 모범 사례를 참조하세요.
- 서버리스 컴퓨팅에는 모든 작업 영역 사용자에 대한 무제한 액세스 권한이 있습니다.
- Notebook 태그는 지원되지 않습니다.
- 스트리밍의 경우 증분 일괄 처리 논리만 사용할 수 있습니다. 기본 또는 시간 기반 트리거 간격은 지원되지 않습니다. 스트리밍 제한 사항을 참조하세요.
제한 사항 참조 목록
다음 섹션에서는 서버리스 컴퓨팅의 현재 제한 사항을 나열합니다.
서버리스 컴퓨팅은 공유 컴퓨팅 아키텍처를 기반으로 합니다. 공유 컴퓨팅에서 상속된 가장 관련성이 큰 제한 사항은 서버리스 관련 추가 제한 사항과 함께 아래에 나열되어 있습니다. 공유 컴퓨팅 제한 사항의 전체 목록은 Unity 카탈로그대한
일반적인 제한 사항
Scala 및 R은 지원되지 않습니다.
ANSI SQL은 SQL을 작성할 때 기본값입니다.
spark.sql.ansi.enabled
을false
로 설정 하여 ANSI 모드를 옵트아웃합니다.Spark RDD API는 지원되지 않습니다.
Spark 컨텍스트(sc),
spark.sparkContext
,sqlContext
는 지원되지 않습니다.Databricks Container Services는 지원되지 않습니다.
웹 터미널은 지원되지 않습니다.
쿼리는 48시간 이상 실행할 수 없습니다.
Unity 카탈로그를 사용하여 외부 데이터 원본에 연결해야 합니다. 외부 위치를 사용하여 클라우드 스토리지에 액세스합니다.
데이터 원본에 대한 지원은 AVRO, BINARYFILE, CSV, DELTA, JSON, KAFKA, ORC, PARQUET, ORC, TEXT, XML로 제한됩니다.
UDF(사용자 정의 함수)는 인터넷에 액세스할 수 없습니다. 이 때문에 CREATE FUNCTION(외부) 명령은 지원되지 않습니다. Databricks는 CREATE FUNCTION(SQL 및 Python) 사용하여 UDF를 만드는 것이 좋습니다.
개별 행은 최대 크기 128MB를 초과해서는 안 됩니다.
Spark UI를 사용할 수 없습니다. 대신 쿼리 프로필을 사용하여 Spark 쿼리에 대한 정보를 봅니다. 쿼리 프로필을 참조하세요.
서버리스 Notebook 및 작업을 사용하는 경우 Spark 로그를 사용할 수 없습니다. 사용자는 클라이언트 쪽 애플리케이션 로그에만 액세스할 수 있습니다.
작업 영역 간 액세스는 작업 영역이 동일한 지역에 있고 대상 작업 영역에 IP ACL 또는 프런트 엔드 PrivateLink가 구성되어 있지 않은 경우에만 허용됩니다.
전역 임시 보기는 지원되지 않습니다. Databricks는 세션 임시 뷰 사용하거나 세션 간 데이터 전달이 필요한 테이블을 만드는 것이 좋습니다.
스트리밍 제한 사항
- 기본 또는 시간 기반 트리거 간격은 지원되지 않습니다.
Trigger.AvailableNow
만 지원됩니다. 구조적 스트리밍 트리거 간격 구성을 참조하세요. - 공유 액세스 모드의 스트리밍에 대한 모든 제한 사항도 적용됩니다. Unity 카탈로그 공유 액세스 모드대한
스트리밍 제한 사항 및 요구 사항을 참조하세요.
기계 학습 제한 사항
- 기계 학습용 Databricks Runtime 및 Apache Spark MLlib는 지원되지 않습니다.
- GPU는 지원되지 않습니다.
Notebook 제한 사항
- Notebook은 구성할 수 없는 8GB 메모리에 액세스할 수 있습니다.
- Notebook 범위 라이브러리는 개발 세션 간에 캐시되지 않습니다.
- 사용자 간에 전자 필기장을 공유할 때 TEMP 테이블 및 뷰 공유는 지원되지 않습니다.
- Notebook의 데이터 프레임에 대한 자동 완성 및 변수 탐색기는 지원되지 않습니다.
워크플로 제한 사항
- 작업에 대한 서버리스 컴퓨팅의 드라이버 크기는 현재 고정되어 있으며 변경할 수 없습니다.
- 작업 로그는 작업 실행별로 격리되지 않습니다. 로그에는 여러 작업의 출력이 포함됩니다.
- Notebook 작업에는 작업 라이브러리가 지원되지 않습니다. 대신 Notebook 범위 라이브러리를 사용합니다. Notebook 범위의 Python 라이브러리를 참조하세요.
컴퓨팅 관련 제한 사항
다음 컴퓨팅 관련 기능은 지원되지 않습니다.
- 컴퓨팅 정책
- 컴퓨팅 범위 init 스크립트
- 사용자 지정 데이터 원본, Spark 확장을 비롯한 컴퓨팅 범위 라이브러리. 대신 Notebook 범위 라이브러리를 사용합니다.
- 인스턴스 프로필을 포함한 컴퓨팅 수준 데이터 액세스 구성. 따라서 클라우드 경로 또는 포함된 자격 증명이 없는 DBFS 탑재를 사용하여 HMS를 통해 테이블 및 파일에 액세스하는 것은 작동하지 않습니다.
- 인스턴스 풀
- 컴퓨팅 이벤트 로그
- 대부분의 Apache Spark 컴퓨팅 구성. 지원되는 구성 목록은 지원되는 Spark 구성 매개 변수
참조하세요. - 환경 변수입니다. 대신 Databricks는 위젯 사용하여 작업 및 작업 매개 변수만드는 것이 좋습니다.
캐싱 제한 사항
데이터 프레임 및 SQL 캐시 API는 서버리스 컴퓨팅에서 지원되지 않습니다. 이러한 API 또는 SQL 명령을 사용하면 예외가 발생합니다.
- df.cache(), df.persist()
- df.unpersist()
- spark.catalog.cacheTable()
- spark.catalog.uncacheTable()
- spark.catalog.clearCache()
- CACHE TABLE
- UNCACHE TABLE
- REFRESH TABLE
- CLEAR CACHE
Hive 제한 사항
Hive SerDe 테이블 지원되지 않습니다. 또한 Hive SerDe 테이블에 데이터를 로드하는 해당 LOAD DATA 명령은 지원되지 않습니다. 명령을 사용하면 예외가 발생합니다.
데이터 원본에 대한 지원은 AVRO, BINARYFILE, CSV, DELTA, JSON, KAFKA, ORC, PARQUET, ORC, TEXT, XML로 제한됩니다.
구문을 사용하는 Hive 변수(예
${env:var}
: ,${configName}
${system:var}
및spark.sql.variable
) 또는 구성 변수 참조는 지원되지 않습니다.${var}
Hive 변수를 사용하면 예외가 발생합니다.대신 DECLARE VARIABLE, SET VARIABLE및 SQL 세션 변수 참조 및 매개 변수 표식('?', ':var')을 사용하여 세션 상태를 선언, 수정 및 참조합니다. IDENTIFIER 절 사용하여 많은 경우에 개체 이름을 매개 변수화할 수도 있습니다.