Databricks Runtime 유지 관리 업데이트
이 문서에서는 지원되는 Databricks 런타임 버전에 대한 유지 관리 업데이트를 나열합니다. 기존 클러스터에 유지 관리 update 추가하려면 클러스터를 다시 시작합니다. 지원되지 않는 Databricks Runtime 버전에 대한 유지 관리 업데이트는 Databricks Runtime에 대한 유지 관리 업데이트(보관됨)를 참조하세요.
참고 항목
릴리스가 준비되었습니다. Azure Databricks 계정은 초기 릴리스 날짜 이후 며칠 동안 update 않을 수 있습니다.
Databricks Runtime releases
릴리스별 유지 관리 업데이트:
- Databricks Runtime 16.0
- Databricks Runtime 15.4
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 14.3
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 16.0
Databricks Runtime 16.0참조하세요.
- 2024년 12월 10일
- (호환성이 손상되는 변경 사항) Databricks Runtime 15.4 이상에서는 Photon의 정규식 처리 방식이 Apache Spark의 정규식 처리 동작과 일치하도록 업데이트됩니다. 이전에는
split()
및regexp_extract()
같은 Photon에서 실행하는 정규식 함수가 Spark 파서에서 거부된 일부 정규식을 수락했습니다. Apache Spark와의 일관성을 유지하기 위해 이제 Spark가 유효하지 않다고 간주하는 정규식에 대해 Photon 쿼리가 실패합니다. 이 변경으로 인해 Spark 코드에 잘못된 정규식이 포함된 경우 오류가 표시될 수 있습니다. 예를 들어, 일치하지 않는 중괄호를 포함한 식split(str_col, '{')
은 이전에 Photon에서 수락되었지만 이제는 실패합니다. 이 식을 수정하려면 중괄호 문자인split(str_col, '\\{')
이스케이프할 수 있습니다. ASCII가 아닌 문자의 일부 정규식 일치에 대해서도 Photon 및 Spark 동작이 다릅니다. 또한 Photon이 Apache Spark 동작과 일치하게 업데이트됩니다. - 이 릴리스에서는 이제 텍스트 입력을 위해
query_text
을 사용하거나 임베딩 입력을 위해query_vector
를 사용하여vector_search
함수를 쿼리할 수 있습니다. - 이제 Spark 구성 속성
spark.databricks.execution.timeout
사용하여 Spark Connect 쿼리에 대한 시간 제한을 set 수 있습니다. 서버리스 컴퓨팅에서 실행되는 Notebook의 경우 기본값은9000
(초)입니다. 서버리스 컴퓨팅 및 공유 클러스터에서 실행되는 작업에는 이 구성 속성이 set않는 한 시간 제한이 없습니다. 지정된 시간 제한보다 오래 실행되는 경우QUERY_EXECUTION_TIMEOUT_EXCEEDED
오류가 발생합니다. - [SPARK-49843][SQL] char/varchar columns 변경 주석 수정
-
[SPARK-49924][SQL]
ArrayCompact
교체 후containsNull
유지 - [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [SPARK-48780][SQL] NamedParametersSupport에서 오류를 함수 및 프로시저를 처리할 수 있도록 일반화하기
- [SPARK-49876][CONNECT] Get Spark Connect 서비스에서 글로벌 잠금을 제거
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- [SPARK-49615] 버그 수정: ML columnschema 검증이 스파크 설정 spark.sql.caseSensitive를 준수하도록 만들기
- [SPARK-48782][SQL] catalogs 프로시저 실행에 대한 지원 추가
- [SPARK-49863][SQL] 중첩된 구조체의 null 허용 가능성을 유지하기 위해 NormalizeFloatingNumbers 수정
- [SPARK-49829] 스트림 스트림 join 상태 저장소에 입력을 추가하는 최적화 수정(정확성 수정)
- 되돌리기 "[SPARK-49002][SQL] WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY에서 잘못된 위치를 일관되게 처리합니다.
- [SPARK-50028][CONNECT] Spark Connect 서버 수신기의 전역 잠금을 세분화된 잠금으로 바꾸기
- [SPARK-49615] [ML] 모든 ML 기능 변환기 데이터 세트가 "spark.sql.caseSensitive" 구성을 준수하는 유효성 검사를 schema.
- [SPARK-50124][SQL] LIMIT/OFFSET 데이터 순서를 유지해야 합니다.
- 운영 체제 보안 업데이트.
- (호환성이 손상되는 변경 사항) Databricks Runtime 15.4 이상에서는 Photon의 정규식 처리 방식이 Apache Spark의 정규식 처리 동작과 일치하도록 업데이트됩니다. 이전에는
Databricks Runtime 15.4
Databricks Runtime 15.4 LTS를 참조하세요.
- 2024년 11월 26일
- 이 릴리스에서는 이제 텍스트 입력을 위한
query_text
을 사용하거나 임베딩 입력을 위한query_vector
를 사용하여vector_search
함수를 쿼리할 수 있습니다. - Spark 구성 속성
spark.databricks.execution.timeout
을(를) 사용하여 이제 Spark Connect 쿼리에 시간 제한을 set 수 있습니다. 서버리스 컴퓨팅에서 실행되는 Notebook의 경우 기본값은9000
(초)입니다. 서버리스 컴퓨팅 및 공유 클러스터에서 실행되는 작업에는 이 구성 속성이 set않는 한 시간 제한이 없습니다. 지정된 시간 제한보다 오래 실행되는 경우QUERY_EXECUTION_TIMEOUT_EXCEEDED
오류가 발생합니다. - [SPARK-50322][SQL] 하위 쿼리에서 매개변수화된 identifier 수정
- [SPARK-49615] [ML] 모든 ML 기능 변환기 데이터 세트가 "spark.sql.caseSensitive" 구성을 준수하는 유효성 검사를 schema.
- [SPARK-50124][SQL] LIMIT/OFFSET 데이터 순서를 유지해야 합니다.
- 운영 체제 보안 업데이트.
- 이 릴리스에서는 이제 텍스트 입력을 위한
- 2024년 11월 5일
- (호환성이 손상되는 변경) Databricks Runtime 15.4 및 그 이상의 버전에서, Photon의 정규식 처리가 Apache Spark의 정규식 처리 동작과 일치하도록 업데이트되었습니다. 이전에는
split()
및regexp_extract()
같은 Photon에서 실행하는 정규식 함수가 Spark 파서에서 거부된 일부 정규식을 수락했습니다. Apache Spark와의 일관성을 유지하기 위해 이제 Spark가 유효하지 않다고 간주하는 정규식에 대해 Photon 쿼리가 실패합니다. 이 변경으로 인해 Spark 코드에 잘못된 정규식이 포함된 경우 오류가 표시될 수 있습니다. 예를 들어, 일치하지 않는 중괄호를 포함하고 이전에 Photon에서 수락했던 식split(str_col, '{')
이 이제는 실패하게 됩니다. 이 식을 수정하려면 중괄호 문자인split(str_col, '\\{')
이스케이프할 수 있습니다. ASCII가 아닌 문자의 일부 정규식 일치에 대해서도 Photon 및 Spark 동작이 다릅니다. 또한 Photon이 Apache Spark 동작과 일치하게 업데이트됩니다. - [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [SPARK-49867][SQL] GetColumnByOrdinal을 호출할 때 인덱스가 범위를 벗어났을 때 오류 메시지 개선
- [SPARK-49863][SQL] 중첩된 구조체의 null 허용 가능성을 유지하기 위해 NormalizeFloatingNumbers 수정
- [SPARK-49829] 스트림 스트림 join 상태 저장소에 입력을 추가하는 최적화 수정(정확성 수정)
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- [SPARK-46632][SQL] 해당하는 삼항 식에 서로 다른 자식이 있는 경우 하위 식 제거 수정
- [SPARK-49443][SQL][PYTHON] to_variant_object 식을 구현하고 schema_of_variant 식이 Variant 개체에 대한 OBJECT를 인쇄하게 합니다.
-
[SPARK-49615] Bugfix: ML columnschema 유효성 검사가 spark 구성
spark.sql.caseSensitive
준수하도록 합니다.
- (호환성이 손상되는 변경) Databricks Runtime 15.4 및 그 이상의 버전에서, Photon의 정규식 처리가 Apache Spark의 정규식 처리 동작과 일치하도록 업데이트되었습니다. 이전에는
- 2024년 10월 22일
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [SPARK-49867][SQL] GetColumnByOrdinal을 호출할 때 인덱스가 범위를 벗어났을 때 오류 메시지 개선
- [SPARK-49863][SQL] 중첩된 구조체의 null 허용 가능성을 유지하기 위해 NormalizeFloatingNumbers 수정
- [SPARK-49829] 스트림 스트림 join 상태 저장소에 입력을 추가하는 최적화 수정(정확성 수정)
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- [SPARK-46632][SQL] 해당하는 삼항 식에 서로 다른 자식이 있는 경우 하위 식 제거 수정
- [SPARK-49443][SQL][PYTHON] to_variant_object 식을 구현하고 schema_of_variant 식이 Variant 개체에 대한 OBJECT를 인쇄하게 합니다.
-
[SPARK-49615] Bugfix: ML columnschema 유효성 검사가 spark 구성
spark.sql.caseSensitive
준수하도록 합니다.
- 2024년 10월 10일
- [SPARK-49743][SQL] OptimizeCsvJsonExpr은 GetArrayStructFields를 정리할 때 schema 필드를 변경하지 않아야 합니다.
- [SPARK-49688][CONNECT] 인터럽트와 실행 계획 간의 데이터 경합 수정
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] FlatMapGroupsWithState 사용자 함수 오류에 대한 분류 오류 클래스
- [SPARK-49460][SQL] 후속 작업: 잠재적인 NPE 위험 해결
- 2024년 9월 25일
- [SPARK-49628][SQL] ConstantFolding은 평가하기 전에 상태 저장 식을 복사해야 합니다.
- [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 "t에서select 개수(고유 1)" where t가 비어 table 수정
- [SPARK-49492][CONNECT] 비활성 ExecutionHolder에서 다시 연결 시도됨
- [SPARK-49458][CONNECT][PYTHON] ReattachExecute를 통해 서버 쪽 세션 ID 제공
- [SPARK-49017][SQL] 여러
를 사용할 때 문이 실패하는 - [SPARK-49451] parse_json 중복 키를 허용합니다.
- 기타 버그가 수정되었습니다.
- 2024년 9월 17일
- [SPARK-48463][ML] 이진 변환기, 버킷타이저, 벡터 어셈블러, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor가 중첩된 입력을 지원하도록 만들기 columns
- [SPARK-49409][CONNECT] CONNECT_SESSION_PLAN_CACHE_SIZE 기본값 조정
- [SPARK-49526][CONNECT][HOTFIX-15.4.2] ArtifactManager에서 Windows 스타일 경로 지원
- 되돌리기 "[SPARK-48482][PYTHON] dropDuplicates and dropDuplicatesWIthinWatermark should accept variable length args"
- [SPARK-43242][CORE] 순서 섞기 손상 진단에서 throw 'BlockId의 예기치 않은 유형'을 수정합니다.
- [SPARK-49366][CONNECT] 데이터 프레임 column 확인에서 공용 구조체 노드를 리프로 처리
- [SPARK-49018][SQL] 데이터 정렬에서 제대로 작동하지 않는 approx_count_distinct 수정
-
[SPARK-49460][SQL] Remove
cleanupResource()
EmptyRelationExec에서 - [SPARK-49056][SQL] ErrorClassesJsonReader가 null을 제대로 처리할 수 없음
- [SPARK-49336][CONNECT] 프로토콜 버퍼 메시지를 잘라낼 때 중첩 수준 Limit
- 2024년 8월 29일
- 이제
SHOW CREATE TABLE
문의 출력에는 구체화된 뷰 또는 스트리밍 table에 정의된 행 필터나 column 마스크가 포함됩니다. SHOW CREATE TABLE참조하세요. 행 필터 및 column 마스크에 대해 알아보려면, 행 필터 및 column 마스크를 사용하여 중요한 table 데이터를 필터링하는 방법을참조하세요. - 공유 액세스 모드로 구성된 컴퓨팅에서 Kafka 일괄 처리 읽기 및 쓰기는 이제 구조적 스트리밍에 대해 문서화된 것과 동일한 제한 사항이 적용됩니다. Unity
공유 액세스 모드대한 스트리밍 제한 사항 및 요구 사항을 참조하세요. - [SPARK-48941][SPARK-48970] 백포트 ML 기록기/판독기 수정
-
[SPARK-49074][SQL]
df.cache()
를 사용하여 변형 수정 - [SPARK-49263][CONNECT] Spark Connect Python 클라이언트: 부울 DataFrame 판독기 옵션을 일관되게 처리
- [SPARK-48955][SQL] 15.4에 ArrayCompact 변경 내용 포함
- [SPARK-48937][SQL] StringToMap 문자열 식에 대한 데이터 정렬 지원 추가
- [SPARK-48929] 내부 오류 보기 수정 및 파서 예외 컨텍스트 정리
- [SPARK-49125][SQL] CSV 쓰기에서 중복된 column 이름 허용
- [SPARK-48934][SS] applyInPandasWithState에서 시간 제한을 설정하기 위한 Python 날짜/시간 형식이 잘못 변환됨
- [SPARK-48843] BindParameters를 사용하여 무한 루프 방지
- [SPARK-48981] 데이터 정렬을 위해 pyspark에서 StringType의 simpleString 메서드 수정
- [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
- [SPARK-48896][SPARK-48909][SPARK-48883] 백포트 spark ML 기록기 수정
- [SPARK-48725][SQL] CollationAwareUTF8String.lowerCaseCodePoints를 문자열 식에 통합
- [SPARK-48978][SQL] UTF8_LCASE용 데이터 정렬 지원에서 ASCII 빠른 경로 구현
- [SPARK-49047][PYTHON] [CONNECT] 로깅을 위해 메시지 자르기
- [SPARK-49146][SS] 추가 모드 스트리밍 쿼리에서 누락된 watermark 관련된 어설션 오류를 오류 프레임워크로 이동
- [SPARK-48977][SQL] UTF8_LCASE 데이터 정렬에서 문자열 검색 Optimize
- [SPARK-48889][SS] testStream을 사용하여 완료하기 전에 상태 저장소 언로드
- [SPARK-48463] StringIndexer가 중첩된 입력을 지원하도록 개선합니다 columns
- [SPARK-48954] try_mod()는 try_remainder()를 대체합니다.
- 운영 체제 보안 업데이트.
- 이제
Databricks Runtime 15.3
Databricks Runtime 15.3을 참조하세요.
- 2024년 11월 26일
- 이 릴리스에서는 이제 텍스트 입력에 대해
query_text
을 사용하거나 임베딩 입력에 대해query_vector
를 사용하여vector_search
함수를 쿼리할 수 있습니다. - 운영 체제 보안 업데이트.
- 이 릴리스에서는 이제 텍스트 입력에 대해
- 2024년 11월 5일
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- [SPARK-49867][SQL] GetColumnByOrdinal을 호출할 때 인덱스가 범위를 벗어났을 때 오류 메시지 개선
- [SPARK-48843][15.3,15.2] BindParameters를 사용하여 무한 루프 방지
- [SPARK-49829] 스트림 스트림 join 상태 저장소에 입력을 추가하는 최적화 수정(정확성 수정)
- [SPARK-49863][SQL] 중첩된 구조체의 null 허용 가능성을 유지하기 위해 NormalizeFloatingNumbers 수정
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [SPARK-46632][SQL] 해당하는 삼항 식에 서로 다른 자식이 있는 경우 하위 식 제거 수정
- 운영 체제 보안 업데이트.
- 2024년 10월 22일
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- [SPARK-49867][SQL] GetColumnByOrdinal을 호출할 때 인덱스가 범위를 벗어났을 때 오류 메시지 개선
- [SPARK-48843][15.3,15.2] BindParameters를 사용하여 무한 루프 방지
- [SPARK-49829] 스트림 스트림 join 상태 저장소에 입력을 추가하는 최적화 수정(정확성 수정)
- [SPARK-49863][SQL] 중첩된 구조체의 null 허용 가능성을 유지하기 위해 NormalizeFloatingNumbers 수정
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [SPARK-46632][SQL] 해당하는 삼항 식에 서로 다른 자식이 있는 경우 하위 식 제거 수정
- 운영 체제 보안 업데이트.
- 2024년 10월 10일
- [SPARK-49688][CONNECT] 인터럽트와 실행 계획 간의 데이터 경합 수정
- [SPARK-49743][SQL] OptimizeCsvJsonExpr은 GetArrayStructFields를 정리할 때 schema 필드를 변경하지 않아야 합니다.
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] FlatMapGroupsWithState 사용자 함수 오류에 대한 분류 오류 클래스
- 운영 체제 보안 업데이트.
- 2024년 9월 25일
- [SPARK-49492][CONNECT] 비활성 ExecutionHolder에서 다시 연결 시도됨
- [SPARK-49628][SQL] ConstantFolding은 평가하기 전에 상태 저장 식을 복사해야 합니다.
- [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 "t에서select 개수(고유 1)" where t가 비어 table 수정
- [SPARK-49458][CONNECT][PYTHON] ReattachExecute를 통해 서버 쪽 세션 ID 제공
-
[SPARK-48719][SQL] 첫 번째 매개 변수가 null일 때의
RegrSlope
계산 버그RegrIntercept
수정 - 운영 체제 보안 업데이트.
- 2024년 9월 17일
- [SPARK-49336][CONNECT] protobuf 메시지를 잘릴 때 중첩 수준 Limit
- [SPARK-49526][CONNECT][15.3.5] ArtifactManager에서 Windows 스타일 경로 지원
- [SPARK-49366][CONNECT] 데이터 프레임 column 확인에서 공용 구조체 노드를 리프로 처리
- [SPARK-43242][CORE] 순서 섞기 손상 진단에서 throw 'BlockId의 예기치 않은 유형'을 수정합니다.
- [SPARK-49409][CONNECT] CONNECT_SESSION_PLAN_CACHE_SIZE 기본값 조정
- 운영 체제 보안 업데이트.
- 2024년 8월 29일
- [SPARK-49263][CONNECT] Spark Connect Python 클라이언트: 부울 DataFrame 판독기 옵션을 일관되게 처리
- [SPARK-49056][SQL] ErrorClassesJsonReader가 null을 제대로 처리할 수 없음
-
[SPARK-48862][PYTHON] [CONNECT] INFO 수준을 사용할 수 없는 경우
_proto_to_string
호출 방지 - [SPARK-49146][SS] 추가 모드 스트리밍 쿼리에서 watermark와 관련된 누락된 어설션 오류를 오류 프레임워크로 이동
- 2024년 8월 14일
- [SPARK-48941][SPARK-48970] 백포트 ML 기록기/판독기 수정
- [SPARK-48706][PYTHON] 상위 순서 함수의 Python UDF는 내부 오류를 발생시키지 않습니다.
- [SPARK-48954] try_mod()는 try_remainder()를 대체합니다.
- [SPARK-48597][SQL] 논리 계획의 텍스트 표현에서 isStreaming 속성에 대한 표식 소개
- [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
- [SPARK-49047][PYTHON] [CONNECT] 로깅을 위해 메시지 자르기
- [SPARK-48740][SQL] 누락된 window 사양 오류를 조기에 감지하기
- 2024년 8월 1일
- [호환성이 손상되는 변경] Databricks Runtime 15.3 이상에서는 Python UDF(사용자 정의 함수), UDAF(사용자 정의 집계 함수), 또는
VARIANT
유형을 인수 또는 반환 값으로 사용하는 UDTF(사용자 정의 table 함수)를 호출하면 예외가 발생합니다. 이 변경은 이러한 함수 중 하나에서 반환된 잘못된 값으로 인해 발생할 수 있는 문제를 방지하기 위해 수행됩니다.VARIANT
유형에 대해 자세히 알아보려면 VARIANT를 사용하여 반구조화된 데이터 저장을 참조하세요. - Notebook 및 작업에 대한 서버리스 컴퓨팅에서 ANSI SQL 모드는 기본값으로 사용하도록 설정됩니다. 지원되는 Spark 구성 parameters참조하세요.
- 공유 액세스 모드로 구성된 컴퓨팅에서 Kafka 일괄 처리 읽기 및 쓰기는 이제 구조적 스트리밍에 대해 문서화된 것과 동일한 제한 사항이 적용됩니다. Unity
공유 액세스 모드대한 스트리밍 제한 사항 및 요구 사항을 참조하세요. - 이제
SHOW CREATE TABLE
문의 출력에는 구체화된 뷰나 스트리밍 table에 정의된 행 필터 또는 column 마스크가 포함됩니다. SHOW CREATE TABLE를 참조하세요. 행 필터 및 column 마스크에 대해 알아보려면 행 필터 및 column 마스크를 사용하여 민감한 table 데이터를 필터링하기를 참조하세요. - [SPARK-46957][CORE] 마이그레이션된 랜덤 보기 파일의 서비스 해제는 실행기에서 정리할 수 있어야 합니다.
- [SPARK-48648][PYTHON] [CONNECT] SparkConnectClient.tags를 올바르게 threadlocal로 만들기
- [SPARK-48896][SPARK-48909][SPARK-48883] 백포트 spark ML 기록기 수정
- [SPARK-48713][SQL] baseObject가 바이트 배열인 경우 UnsafeRow.pointTo에 대한 인덱스 범위 확인 추가
- [SPARK-48834][SQL] 쿼리 컴파일 중에 Python 스칼라 UDF, UDF, UDAF에 변형 입출력 사용 안 함
- [SPARK-48934][SS] applyInPandasWithState에서 시간 제한을 설정하기 위한 Python 날짜/시간 형식이 잘못 변환됨
- [SPARK-48705][PYTHON] pyspark로 시작할 때 worker_main 명시적으로 사용
- [SPARK-48544][SQL] 빈 TreeNode BitSets의 메모리 압력 감소
- [SPARK-48889][SS] testStream을 사용하여 완료하기 전에 상태 저장소 언로드
- [SPARK-49054][SQL] Column 기본값은 current_* 함수를 지원해야 합니다.
- [SPARK-48653][PYTHON] 잘못된 Python 데이터 원본 오류 클래스 참조 수정
- [SPARK-48463] StringIndexer가 중첩된 입력을 지원하도록 만듭니다. columns
- [SPARK-48810][CONNECT] 세션 stop() API는 현재 idempotent이며 서버에서 세션을 이미 닫은 경우 실패하지 않습니다.
- [SPARK-48873][SQL] JSON 파서에서 UnsafeRow를 사용합니다.
- 운영 체제 보안 업데이트.
- [호환성이 손상되는 변경] Databricks Runtime 15.3 이상에서는 Python UDF(사용자 정의 함수), UDAF(사용자 정의 집계 함수), 또는
- 2024년 7월 11일
- (동작 변경) 델타 table 소스에 대해 캐시된 데이터 프레임은 이제 원본 table이 덮어쓰여지면 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
.checkpoint()
사용하여 DataFrame의 수명 동안 table 상태를 유지합니다. - Snowflake JDBC 드라이버가 버전 3.16.1로 업데이트되었습니다.
- 이 릴리스에는 Databricks 컨테이너 서비스에서 실행할 때 Spark UI 환경 탭이 올바르게 표시되지 않는 문제에 대한 수정 사항이 포함되어 있습니다.
- 데이터를 읽을 때 잘못된 파티션을 무시하려면 Parquet, ORC, CSV 또는 JSON과 같은 파일 기반 데이터 원본에서 ignoreInvalidPartitionPaths 데이터 원본 옵션을 true로 set 수 있습니다. 예: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. SQL 구성 spark.sql.files.ignoreInvalidPartitionPaths를 사용할 수도 있습니다. 그러나 데이터 원본 옵션이 SQL 구성보다 우선 순위를 갖습니다. 기본값으로 이것은 false로 설정되어 있습니다.
- [SPARK-48100][SQL] schema 선택되지 않은 중첩된 구조체 필드를 건너뛰는 문제 해결
- [SPARK-47463][SQL] V2Predicate를 사용하여 부울의 반환 형식으로 식 래핑
- [SPARK-48292][CORE] 되돌리기 [SPARK-39195][SQL] 커밋된 파일이 작업 상태와 일치하지 않는 경우 Spark OutputCommitCoordinator에서 단계를 중단해야 합니다.
- [SPARK-48475][PYTHON]
_get_jvm_function PySpark에서. - [SPARK-48286] 존재하는 기본 식을 사용하여 column 분석 수정 - 사용자에게 표시되는 오류 추가
- [SPARK-48481][SQL] [SS] 스트리밍 데이터 세트에 OptimizeOneRowPlan을 적용하지 마세요.
- "[SPARK-47406][SQL] MYSQLDialect에서 타임스탬프 및 날짜/시간 처리" 되돌리기
- [SPARK-48383][SS] Kafka의 startOffset 옵션에서 일치하지 않는 파티션에 대해 오류 개선
- [SPARK-48503][14.3-15.3][SQL] 비등가 columns에 대한 그룹별로 잘못 허용된 잘못된 스칼라 하위 쿼리 수정
- [SPARK-48445][SQL] 비싼 자식이 있는 UDF를 인라인하지 마세요.
- [SPARK-48252][SQL] Update 필요한 경우 CommonExpressionRef
- [SPARK-48273][master] [SQL] PlanWithUnresolvedIdentifier의 늦은 다시 쓰기 수정
- [SPARK-48566][PYTHON] UDTF analyze()가 select 및 partitionColumns를 모두 사용하는 경우 버그 wherepartition 인덱스가 잘못되었습니다.
- [SPARK-48556][SQL] UNSUPPORTED_GROUPING_EXPRESSION을 가리키는 잘못된 오류 메시지 수정
- 운영 체제 보안 업데이트.
- (동작 변경) 델타 table 소스에 대해 캐시된 데이터 프레임은 이제 원본 table이 덮어쓰여지면 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
Databricks Runtime 15.2
Databricks Runtime 15.2를 참조하세요.
- 2024년 11월 26일
- 운영 체제 보안 업데이트.
- 2024년 11월 5일
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- [SPARK-48843][15.3,15.2] BindParameters를 사용하여 무한 루프 방지
- [SPARK-49829] 스트림 스트림 join 상태 저장소에 입력을 추가하는 최적화 수정(정확성 수정)
- [SPARK-49863][SQL] 중첩된 구조체의 null 허용 가능성을 유지하기 위해 NormalizeFloatingNumbers 수정
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [SPARK-46632][SQL] 해당하는 삼항 식에 서로 다른 자식이 있는 경우 하위 식 제거 수정
- 운영 체제 보안 업데이트.
- 2024년 10월 22일
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- [SPARK-48843][15.3,15.2] BindParameters를 사용하여 무한 루프 방지
- [SPARK-49829] 스트림 스트림 join 상태 저장소에 입력을 추가하는 최적화 수정(정확성 수정)
- [SPARK-49863][SQL] 중첩된 구조체의 null 허용 가능성을 유지하기 위해 NormalizeFloatingNumbers 수정
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [SPARK-46632][SQL] 해당하는 삼항 식에 서로 다른 자식이 있는 경우 하위 식 제거 수정
- 운영 체제 보안 업데이트.
- 2024년 10월 10일
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] FlatMapGroupsWithState 사용자 함수 오류에 대한 분류 오류 클래스
- [SPARK-49743][SQL] OptimizeCsvJsonExpr은 GetArrayStructFields를 정리할 때 schema 필드를 변경하지 않아야 합니다.
- [SPARK-49688][CONNECT] 인터럽트와 실행 계획 간의 데이터 경합 수정
- 운영 체제 보안 업데이트.
- 2024년 9월 25일
- [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 "t에서select 개수(고유 1)" where t가 비어 table 수정
- [SPARK-48719][SQL] 첫 번째 매개 변수가 null일 때 RegrSlope &RegrIntercept의 계산 버그 수정
- [SPARK-49458][CONNECT][PYTHON] ReattachExecute를 통해 서버 쪽 세션 ID 제공
- [SPARK-49628][SQL] ConstantFolding은 평가하기 전에 상태 저장 식을 복사해야 합니다.
- [SPARK-49492][CONNECT] 비활성 ExecutionHolder에서 다시 연결 시도됨
- 운영 체제 보안 업데이트.
- 2024년 9월 17일
- [SPARK-49336][CONNECT] protobuf 메시지를 잘라낼 때의 중첩 수준 Limit
- [SPARK-49526][CONNECT] ArtifactManager에서 Windows 스타일 경로 지원
- [SPARK-49366][CONNECT] 데이터 프레임 column 해결에서 유니온 노드를 말단으로 처리
- [SPARK-43242][CORE] 순서 섞기 손상 진단에서 throw 'BlockId의 예기치 않은 유형'을 수정합니다.
- [SPARK-49409][CONNECT] CONNECT_SESSION_PLAN_CACHE_SIZE 기본값 조정
- 운영 체제 보안 업데이트.
- 2024년 8월 29일
- [SPARK-49056][SQL] ErrorClassesJsonReader가 null을 제대로 처리할 수 없음
- [SPARK-48597][SQL] 논리 계획의 텍스트 표현에서 isStreaming 속성에 대한 표식 소개
-
[SPARK-48862][PYTHON] [CONNECT] INFO 수준을 사용할 수 없는 경우
_proto_to_string
호출 방지 - [SPARK-49263][CONNECT] Spark Connect Python 클라이언트: 부울 DataFrame 판독기 옵션을 일관되게 처리
- [SPARK-49146][SS] 추가 모드 스트리밍 쿼리에서 누락된 watermark 관련된 어설션 오류를 오류 프레임워크로 이동
- 2024년 8월 14일
- [SPARK-48941][SPARK-48970] 백포트 ML 기록기/판독기 수정
- [SPARK-48050][SS] 쿼리 시작 시 논리 계획 기록
- [SPARK-48706][PYTHON] 상위 순서 함수의 Python UDF는 내부 오류를 발생시키지 않습니다.
- [SPARK-48740][SQL] 누락된 window 사양 오류를 조기에 감지하기
- [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
- [SPARK-49047][PYTHON] [CONNECT] 로깅을 위해 메시지 자르기
- 2024년 8월 1일
- Notebook 및 작업에 대한 서버리스 컴퓨팅에서 ANSI SQL 모드는 기본값으로 사용하도록 설정됩니다. 지원되는 Spark 구성 parameters참조하세요.
- 공유 액세스 모드로 구성된 컴퓨팅에서 Kafka 일괄 처리 읽기 및 쓰기는 이제 구조적 스트리밍에 대해 문서화된 것과 동일한 제한 사항이 적용됩니다. Unity
공유 액세스 모드대한 스트리밍 제한 사항 및 요구 사항을 참조하세요. - 이제
SHOW CREATE TABLE
문의 출력에는 구체화된 뷰나 스트리밍 table에 정의된 행 필터 또는 column 마스크가 포함됩니다. SHOW CREATE TABLE참조하십시오. 행 필터 및 column 마스크에 대해 알아보려면 행 필터와 column 마스크를 사용하여 민감한 table 데이터를 필터링하는 방법을 참조하세요. - [SPARK-48705][PYTHON] pyspark로 시작할 때 worker_main 명시적으로 사용
- [SPARK-48047][SQL] 빈 TreeNode 태그의 메모리 압력 감소
- [SPARK-48810][CONNECT] 세션 stop() API는 현재 idempotent이며 서버에서 세션을 이미 닫은 경우 실패하지 않습니다.
- [SPARK-48873][SQL] JSON 파서에서 UnsafeRow를 사용합니다.
- [SPARK-46957][CORE] 마이그레이션된 랜덤 보기 파일의 서비스 해제는 실행기에서 정리할 수 있어야 합니다.
- [SPARK-48889][SS] testStream을 사용하여 완료하기 전에 상태 저장소 언로드
- [SPARK-48713][SQL] baseObject가 바이트 배열인 경우 UnsafeRow.pointTo에 대한 인덱스 범위 확인 추가
- [SPARK-48896][SPARK-48909][SPARK-48883] 백포트 spark ML 기록기 수정
- [SPARK-48544][SQL] 빈 TreeNode BitSets의 메모리 압력 감소
- [SPARK-48934][SS] applyInPandasWithState에서 시간 제한을 설정하기 위한 Python 날짜/시간 형식이 잘못 변환됨
- [SPARK-48463] 중첩된 입력을 지원하는 StringIndexer 만들기 columns
- 운영 체제 보안 업데이트.
- 2024년 7월 11일
- (동작 변경) 원본 table가 덮어쓰일 경우 델타 table 원본에 대해 캐시된 데이터 프레임이 이제 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
.checkpoint()
사용하여 DataFrame의 수명 동안 table 상태를 유지합니다. - Snowflake JDBC 드라이버가 버전 3.16.1로 업데이트되었습니다.
- 이 릴리스에는 Databricks 컨테이너 서비스에서 실행할 때 Spark UI 환경 탭이 올바르게 표시되지 않는 문제에 대한 수정 사항이 포함되어 있습니다.
- 서버리스 Notebook 및 작업에서 ANSI SQL 모드는 기본적으로 사용하도록 설정되며 짧은 이름을 지원합니다.
- 데이터를 읽을 때 잘못된 파티션을 무시하려면 Parquet, ORC, CSV 또는 JSON과 같은 파일 기반 데이터 원본에서 ignoreInvalidPartitionPaths 데이터 원본 옵션을 true로 set 수 있습니다. 예: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. SQL 구성 spark.sql.files.ignoreInvalidPartitionPaths를 사용할 수도 있습니다. 그러나 데이터 원본 옵션이 SQL 구성보다 우선 순위를 갖습니다. 기본값으로 이것은 false로 설정되어 있습니다.
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifier의 늦은 다시 쓰기 수정
- [SPARK-48292][CORE] 되돌리기 [SPARK-39195][SQL] 커밋된 파일이 작업 상태와 일치하지 않는 경우 Spark OutputCommitCoordinator에서 단계를 중단해야 합니다.
- [SPARK-48100][SQL] schema 선택되지 않은 중첩 구조체 필드 건너뛰기 문제 수정
- [SPARK-48286] 있는 기본 식으로 column의 분석을 수정 - 사용자에게 표시되는 오류 추가
- [SPARK-48294][SQL] nestedTypeMissingElementTypeError에서 소문자 처리
- [SPARK-48556][SQL] UNSUPPORTED_GROUPING_EXPRESSION을 가리키는 잘못된 오류 메시지 수정
- [SPARK-48648][PYTHON] [CONNECT] SparkConnectClient.tags를 올바르게 threadlocal로 만들기
- [SPARK-48503][SQL] 비동등 columns에 대해 잘못 허용된 그룹별 잘못된 스칼라 하위 쿼리 수정
- [SPARK-48252][SQL] Update 필요한 경우 CommonExpressionRef
- [SPARK-48475][PYTHON] Optimize _get_jvm_function in PySpark.
- [SPARK-48566][PYTHON] UDTF analyze()가 select 및 partitionColumns를 모두 사용할 때, 인덱스 wherepartition이/가 잘못되는 버그를 수정합니다.
- [SPARK-48481][SQL] [SS] 스트리밍 데이터 세트에 OptimizeOneRowPlan을 적용하지 마세요.
- [SPARK-47463][SQL] V2Predicate를 사용하여 부울의 반환 형식으로 식 래핑
- [SPARK-48383][SS] Kafka의 startOffset 옵션에서 일치하지 않는 파티션에 대해 오류 개선
- [SPARK-48445][SQL] 비싼 자식이 있는 UDF를 인라인하지 마세요.
- 운영 체제 보안 업데이트.
- (동작 변경) 원본 table가 덮어쓰일 경우 델타 table 원본에 대해 캐시된 데이터 프레임이 이제 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
- 2024년 6월 17일
-
applyInPandasWithState()
는 공유 클러스터에서 사용할 수 있습니다. - Photon TopK가 구조체가 포함된 파티션을 잘못 처리하여 발생한 where 버그를 수정하고, 순위window 최적화를 수행합니다.
- try_divide() 함수의 where 버그가 수정되었습니다. 10진수를 포함하는 입력으로 인해 예기치 않은 예외가 발생하던 문제가 해결되었습니다.
- [SPARK-48197][SQL] 잘못된 람다 함수에 대한 어설션 오류 방지
-
[SPARK-48276][PYTHON] [CONNECT]
__repr__
에 대해 누락된SQLExpression
메서드 추가 - [SPARK-48014][SQL] EvaluatePython의 makeFromJava 오류를 사용자 연결 오류로 변경
- [SPARK-48016][SQL] 소수점을 사용하는 경우 try_divide 함수의 버그 수정
- [SPARK-47986][CONNECT] [PYTHON] 서버에서 기본 세션을 닫을 때 새 세션을 만들 수 없음
- [SPARK-48173][SQL] CheckAnalysis에 전체 쿼리 계획을 확인해야 합니다.
- [SPARK-48056][CONNECT] [PYTHON] SESSION_NOT_FOUND 오류가 발생하고 부분 응답이 수신되지 않은 경우 계획을 다시 실행
- [SPARK-48172][SQL] JDBCDialects 백포트의 이스케이프 문제를 15.2로 수정
- [SPARK-48105][SS] 상태 저장소 언로드와 스냅샷 간의 경합 상태 수정
- [SPARK-48288] 커넥터 캐스팅 식에 대한 원본 데이터 유형 추가
- [SPARK-48310][PYTHON] [CONNECT] 캐시된 속성은 복사본을 반환해야 합니다.
- [SPARK-48277] ErrorClassesJsonReader.getErrorMessage에 대한 오류 메시지 개선
- [SPARK-47986][CONNECT] [PYTHON] 서버에서 기본 세션을 닫을 때 새 세션을 만들 수 없음
- "[SPARK-47406][SQL] MYSQLDialect에서 타임스탬프 및 날짜/시간 처리" 되돌리기
- [SPARK-47994][SQL] SQLServer에서 CASE WHEN column 필터 푸시다운으로 버그 수정
- [SPARK-47764][CORE][SQL] ShuffleCleanupMode를 기준으로 랜덤 보기 종속성 정리
- [SPARK-47921][CONNECT] ExecuteHolder에서 ExecuteJobTag 만들기 수정
- [SPARK-48010][SQL] resolveExpression에서 conf.resolver에 대한 반복 호출 방지
- [SPARK-48146][SQL] With 식 자식 어설션의 집계 함수 수정
- [SPARK-48180][SQL] TABLE 인수를 사용하는 UDTF 호출에서 여러 PARTITION/ORDER BY 표현식 주위의 괄호를 놓친 경우에 대한 오류 메시지 개선
- 운영 체제 보안 업데이트.
-
Databricks Runtime 14.3
Databricks Runtime 14.3 LTS를 참조하세요.
- 2024년 11월 26일
- [SPARK-49615] [ML] 모든 ML 기능 변환기 데이터 세트가 "spark.sql.caseSensitive" 구성을 준수하는 유효성 검사를 schema.
- 운영 체제 보안 업데이트.
- 2024년 11월 5일
- [SPARK-48843] BindParameters를 사용하여 무한 루프 방지
- [SPARK-49829] 스트림 스트림 join 상태 저장소에 입력을 추가하는 최적화 수정(정확성 수정)
- [SPARK-49863][SQL] 중첩된 구조체의 null 허용 가능성을 유지하기 위해 NormalizeFloatingNumbers 수정
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Foreach 싱크 사용자 함수 오류에 대한 분류 오류 클래스
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [SPARK-46632][SQL] 해당하는 삼항 식에 서로 다른 자식이 있는 경우 하위 식 제거 수정
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- 운영 체제 보안 업데이트.
- 2024년 10월 22일
- [SPARK-48843] BindParameters를 사용하여 무한 루프 방지
- [SPARK-49863][SQL] 중첩된 구조체의 null 허용 가능성을 유지하기 위해 NormalizeFloatingNumbers 수정
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- [SPARK-46632][SQL] 해당하는 삼항 식에 서로 다른 자식이 있는 경우 하위 식 제거 수정
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Foreach 싱크 사용자 함수 오류에 대한 분류 오류 클래스
- [SPARK-49829] 스트림 스트림 join 상태 저장소에 입력을 추가하는 최적화 수정(정확성 수정)
- 운영 체제 보안 업데이트.
- 2024년 10월 10일
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] FlatMapGroupsWithState 사용자 함수 오류에 대한 분류 오류 클래스
- [SPARK-49743][SQL] OptimizeCsvJsonExpr은 GetArrayStructFields를 정리할 때 schema 필드를 변경하지 않아야 합니다.
- [SPARK-49688][CONNECT] 인터럽트와 실행 계획 간의 데이터 경합 수정
- 2024년 9월 25일
- [SPARK-48810][CONNECT] 세션 stop() API는 현재 idempotent이며 서버에서 세션을 이미 닫은 경우 실패하지 않습니다.
- [SPARK-48719][SQL] 'RegrS...
- [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 "t에서select 개수(고유 1)" where t가 비어 table 수정
- [SPARK-49628][SQL] ConstantFolding은 평가하기 전에 상태 저장 식을 복사해야 합니다.
- [SPARK-49492][CONNECT] 비활성 ExecutionHolder에서 다시 연결 시도됨
- 운영 체제 보안 업데이트.
- 2024년 9월 17일
- [SPARK-49336][CONNECT] protobuf 메시지를 잘릴 때 중첩 수준을 Limit 조정하기
- [SPARK-43242][CORE] 순서 섞기 손상 진단에서 throw 'BlockId의 예기치 않은 유형'을 수정합니다.
- [SPARK-48463][ML] 이진 변환기, 버킷타이저, 벡터 어셈블러, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor 지원 중첩된 입력 columns
- [SPARK-49526][CONNECT] ArtifactManager에서 Windows 스타일 경로 지원
- [SPARK-49409][CONNECT] CONNECT_SESSION_PLAN_CACHE_SIZE 기본값 조정
- [SPARK-49366][CONNECT] 데이터프레임 column 리졸루션에서 유니온 노드를 리프로 처리
- 2024년 8월 29일
- [SPARK-49146][SS] 추가 모드 스트리밍 쿼리에서 누락된 watermark와 관련된 어설션 오류를 오류 프레임워크로 이동
-
[SPARK-48862][PYTHON] [CONNECT] INFO 수준을 사용할 수 없는 경우
_proto_to_string
호출 방지 - [SPARK-49263][CONNECT] Spark Connect Python 클라이언트: 부울 DataFrame 판독기 옵션을 일관되게 처리
- 2024년 8월 14일
- [SPARK-48941][SPARK-48970] 백포트 ML 기록기/판독기 수정
- [SPARK-48706][PYTHON] 상위 순서 함수의 Python UDF는 내부 오류를 발생시키지 않습니다.
- [SPARK-49056][SQL] ErrorClassesJsonReader가 null을 제대로 처리할 수 없음
- [SPARK-48597][SQL] 논리 계획의 텍스트 표현에서 isStreaming 속성에 대한 표식 소개
- [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
- [SPARK-48934][SS] applyInPandasWithState에서 시간 제한을 설정하기 위한 Python 날짜/시간 형식이 잘못 변환됨
- 2024년 8월 1일
- 이 릴리스에는 Spark Java 인터페이스의
ColumnVector
및ColumnarArray
클래스에 대한 버그 수정이 포함되어 있습니다. 이 수정 이전에는 이러한 클래스 중 하나의 인스턴스가null
values포함되어 있을 때ArrayIndexOutOfBoundsException
throw되거나 잘못된 데이터가 반환될 수 있습니다. - Notebook 및 작업에 대한 서버리스 컴퓨팅에서 ANSI SQL 모드는 기본값으로 사용하도록 설정됩니다. 지원되는 Spark 구성 parameters을 참조하세요.
- 공유 액세스 모드로 구성된 컴퓨팅에서 Kafka 일괄 처리 읽기 및 쓰기는 이제 구조적 스트리밍에 대해 문서화된 것과 동일한 제한 사항이 적용됩니다. Unity
공유 액세스 모드대한 스트리밍 제한 사항 및 요구 사항을 참조하세요. - 이제
SHOW CREATE TABLE
문의 출력에는 구체화된 뷰 또는 스트리밍 table에 정의된 행 필터나 column 마스크가 포함됩니다. SHOW CREATE TABLE를 참조하세요. 행 필터 및 column 마스크에 대해 알아보려면, 행 필터와 column 마스크를 사용하여 중요한 table 데이터를 필터링를 참조하세요. - [SPARK-48896][SPARK-48909][SPARK-48883] 백포트 spark ML 기록기 수정
- [SPARK-48889][SS] testStream을 사용하여 완료하기 전에 상태 저장소 언로드
- [SPARK-48705][PYTHON] pyspark로 시작할 때 worker_main 명시적으로 사용
- [SPARK-48047][SQL] 빈 TreeNode 태그의 메모리 압력 감소
- [SPARK-48544][SQL] 빈 TreeNode BitSets의 메모리 압력 감소
- [SPARK-46957][CORE] 마이그레이션된 랜덤 보기 파일의 서비스 해제는 실행기에서 정리할 수 있어야 합니다.
- [SPARK-48463] 중첩된 입력 columns 지원하는 StringIndexer를 만듭니다.
- [SPARK-47202][PYTHON] tzinfo를 사용하여 오타가 생긴 날짜/시간 수정
- [SPARK-47713][SQL][CONNECT] 자체join 오류 수정
- 운영 체제 보안 업데이트.
- 이 릴리스에는 Spark Java 인터페이스의
- 2024년 7월 11일
- (동작 변경) 이제 원본 table 덮어쓰면 델타 table 원본에 대해 캐시된 데이터 프레임이 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
.checkpoint()
사용하여 DataFrame의 수명 동안 table 상태를 유지합니다. - Snowflake JDBC 드라이버가 버전 3.16.1로 업데이트되었습니다.
- 이 릴리스에는 Databricks 컨테이너 서비스에서 실행할 때 Spark UI 환경 탭이 올바르게 표시되지 않는 문제에 대한 수정 사항이 포함되어 있습니다.
- Notebook 및 작업에 대한 서버리스 컴퓨팅에서 ANSI SQL 모드는 기본값으로 사용하도록 설정됩니다. 지원되는 Spark 구성 parameters를 참조하세요.
- 데이터를 읽을 때 잘못된 파티션을 무시하려면 Parquet, ORC, CSV 또는 JSON과 같은 파일 기반 데이터 원본에서 ignoreInvalidPartitionPaths 데이터 원본 옵션을 true로 set 수 있습니다. 예: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(...). SQL 구성 spark.sql.files.ignoreInvalidPartitionPaths를 사용할 수도 있습니다. 그러나 데이터 원본 옵션이 SQL 구성보다 우선 순위를 갖습니다. 기본값으로 이것은 false로 설정되어 있습니다.
- [SPARK-48648][PYTHON] [CONNECT] SparkConnectClient.tags를 올바르게 threadlocal로 만들기
- [SPARK-48445][SQL] 비싼 자식이 있는 UDF를 인라인하지 마세요.
- [SPARK-48481][SQL] [SS] 스트리밍 데이터 세트에 OptimizeOneRowPlan을 적용하지 마세요.
- [SPARK-48383][SS] Kafka의 startOffset 옵션에서 일치하지 않는 파티션에 대해 오류 개선
- [SPARK-48503][SQL] 잘못 허용된 해당되지 않는 columns 그룹별로 잘못된 스칼라 하위 쿼리 수정
- [SPARK-48100][SQL] schema 선택되지 않은 중첩된 구조체 필드를 건너뛰는 문제 해결
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifier의 늦은 다시 쓰기 수정
- [SPARK-48252][SQL] Update CommonExpressionRef 필요한 경우에
- [SPARK-48475][PYTHON] Optimize _get_jvm_function in PySpark.
- [SPARK-48292][CORE] 되돌리기 [SPARK-39195][SQL] 커밋된 파일이 작업 상태와 일치하지 않는 경우 Spark OutputCommitCoordinator에서 단계를 중단해야 합니다.
- 운영 체제 보안 업데이트.
- (동작 변경) 이제 원본 table 덮어쓰면 델타 table 원본에 대해 캐시된 데이터 프레임이 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
- 2024년 6월 17일
-
applyInPandasWithState()
는 공유 클러스터에서 사용할 수 있습니다. - Photon TopK가 구조체를 포함한 파티션을 잘못 처리하여 발생한 버그 where을 수정하고, 이를 통해 순위window 최적화를 개선합니다.
- [SPARK-48310][PYTHON] [CONNECT] 캐시된 속성은 복사본을 반환해야 합니다.
-
[SPARK-48276][PYTHON] [CONNECT]
__repr__
에 대해 누락된SQLExpression
메서드 추가 - [SPARK-48294][SQL] nestedTypeMissingElementTypeError에서 소문자 처리
- 운영 체제 보안 업데이트.
-
- 2024년 5월 21일
- (
동작 변경 )이제 Notebook모든 위젯 지원됩니다. - where 입력에 10진수가 포함된 경우 예기치 않은 예외가 발생하던 try_divide() 함수의 버그가 수정되었습니다.
- [SPARK-48056][CONNECT] [PYTHON] SESSION_NOT_FOUND 오류가 발생하고 부분 응답이 수신되지 않은 경우 계획을 다시 실행
- [SPARK-48146][SQL] With 식 자식 어설션의 집계 함수 수정
- [SPARK-47986][CONNECT] [PYTHON] 서버에서 기본 세션을 닫을 때 새 세션을 만들 수 없음
- [SPARK-48180][SQL] TABLE 인수를 사용하는 UDTF 호출에서 여러 PARTITION/ORDER BY 표현식 주위의 괄호를 잊어버린 경우 오류 개선
- [SPARK-48016][SQL] 소수점을 사용하는 경우 try_divide 함수의 버그 수정
- [SPARK-48197][SQL] 잘못된 람다 함수에 대한 어설션 오류 방지
- [SPARK-47994][SQL] SQLServer에서 CASE WHEN column 필터 푸시다운으로 버그 수정
- [SPARK-48173][SQL] CheckAnalysis에 전체 쿼리 계획을 확인해야 합니다.
- [SPARK-48105][SS] 상태 저장소 언로드와 스냅샷 간의 경합 상태 수정
- 운영 체제 보안 업데이트.
- (
- 2024년 5월 9일
- (동작 변경)
applyInPandas
및mapInPandas
UDF 형식은 이제 Databricks Runtime 14.3 이상을 실행하는 공유 액세스 모드 컴퓨팅에서 지원됩니다. - [SPARK-47739][SQL] 논리 avro 형식 등록
- [SPARK-47941] [SS] [연결] PySpark 사용자에게 ForeachBatch 작업자 초기화 오류 전파
- [SPARK-48010][SQL] resolveExpression에서 conf.resolver에 대한 반복 호출 방지
-
[SPARK-48044][PYTHON][CONNECT]
DataFrame.isStreaming
캐시 - [SPARK-47956][SQL] 해결되지 않은 LCA 참조에 대한 온전성 검사
- [SPARK-47543][CONNECT][PYTHON] Pandas DataFrame에서 Mapype로 dict를 유추하여 DataFrame을 만들기 허용
- [SPARK-47819][CONNECT][Cherry-pick-14.3] 실행 정리에 비동기 콜백 사용
- [SPARK-47764][CORE][SQL] ShuffleCleanupMode를 기준으로 랜덤 보기 종속성 정리
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange가 발생할 때 매개 변수 오류가 누락되는 null groupId 수정
- [SPARK-47839][SQL] RewriteWithExpression에서 집계 버그 수정
- [SPARK-47371] [SQL] XML: CDATA에 있는 행 태그 무시
- [SPARK-47895][SQL] GROUP BY ALL은 idempotent여야 합니다.
- [SPARK-47973][CORE] SparkContext.stop() 및 이후 SparkContext.assertNotStopped()에 호출 사이트 기록
- 운영 체제 보안 업데이트.
- (동작 변경)
- 2024년 4월 25일
-
[SPARK-47543][CONNECT][PYTHON] Pandas DataFrame에서
dict
으로MapType
를 유추하여 DataFrame 만들기 허용 - [SPARK-47694][CONNECT] 클라이언트 쪽에서 최대 메시지 크기를 구성할 수 있도록 설정
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] 캐시된 schema 사용하여 column 이름의 유효성을 검사합니다.
- [SPARK-47862][PYTHON] [CONNECT] proto 파일 생성 수정
- "[SPARK-47543][CONNECT][PYTHON] Pandas DataFrame에서
dict
으로MapType
를 유추하여 DataFrame 만들기 허용" 되돌리기 - [SPARK-47704][SQL] spark.sql.json.enablePartialResults를 사용하도록 설정하면 "java.lang.ClassCastException"으로 JSON 구문 분석이 실패
- [SPARK-47812][CONNECT] ForEachBatch 작업자에 대한 SparkSession의 직렬화 지원
- [SPARK-47818][CONNECT][Cherry-pick-14.3] SparkConnectPlanner에 계획 캐시를 도입하여 분석 요청의 성능 향상
-
[SPARK-47828][CONNECT] [PYTHON] 잘못된 계획으로
DataFrameWriterV2.overwrite
실패 - 운영 체제 보안 업데이트.
-
[SPARK-47543][CONNECT][PYTHON] Pandas DataFrame에서
- 2024년 4월 11일
- (동작 변경) 컴퓨팅 유형 간에 일관된 동작을 보장하기 위해 공유 클러스터의 PySpark UDF는 이제 격리되지 않고 할당된 클러스터에서 UDF의 동작과 일치합니다. 이 update 기존 코드를 손상할 수 있는 다음과 같은 변경 내용을 포함합니다.
-
string
반환 형식이 있는 UDF는 더 이상 비string
values를string
values로 암묵적으로 변환하지 않습니다. 이전에는 반환 형식str
이 있는 UDF는 반환된 값의 실제 데이터 형식과 관계없이 반환 값을str()
함수로 래핑했습니다. -
timestamp
반환 형식이 있는 UDF는 더 이상timestamp
을 사용하여timezone
에 대한 변환을 암시적으로 적용하지 않습니다. - Spark 클러스터 구성
spark.databricks.sql.externalUDF.*
은 공유 클러스터의 PySpark UDF에 더 이상 적용되지 않습니다. - Spark 클러스터 구성
spark.databricks.safespark.externalUDF.plan.limit
은 더 이상 PySpark UDF에 영향을 주지 않으며 PySpark UDF에 대한 쿼리당 5UDF의 공개 미리 보기 제한을 제거합니다. - Spark 클러스터 구성
spark.databricks.safespark.sandbox.size.default.mib
은 더 이상 공유 클러스터의 PySpark UDF에 적용되지 않습니다. 대신 시스템에서 사용 가능한 메모리가 사용됩니다. PySpark UDF의 메모리를 limit하기 위해spark.databricks.pyspark.udf.isolation.memoryLimit
을 최소값100m
로 사용하세요.
-
- 이제
TimestampNTZ
데이터 형식은 액체 클러스터링을 사용하는 클러스터링 column으로 지원됩니다. 델타에 대해 액체 클러스터링을 사용하세요. 를 참조하세요. - [SPARK-47511][SQL] ID를 다시 할당하여 식으로 정규화
- [SPARK-47509][SQL] LAMBDA 및 상위 함수에서 하위 쿼리 식 차단
- [SPARK-46990][SQL] event-hubs에서 내보낸 빈 Avro 파일 로드 수정
- [SPARK-47638][PS][CONNECT] PS에서 column 이름 검증 생략하기
- 운영 체제 보안 업데이트.
- (동작 변경) 컴퓨팅 유형 간에 일관된 동작을 보장하기 위해 공유 클러스터의 PySpark UDF는 이제 격리되지 않고 할당된 클러스터에서 UDF의 동작과 일치합니다. 이 update 기존 코드를 손상할 수 있는 다음과 같은 변경 내용을 포함합니다.
- 2024년 3월 14일
- [SPARK-47135][SS] Kafka 데이터 손실 예외에 대한 오류 클래스 구현
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruning 도우미 함수 있음
- [SPARK-47145][SQL] V2 전략에 대해 행 데이터 소스 스캔 실행에 tableidentifier을 전달합니다.
- [SPARK-47044][SQL] JDBC 외부 데이터 소스에 대해 실행된 쿼리를 explain 출력에 추가
- [SPARK-47167][SQL] JDBC 익명 관계에 대해 구체적 클래스 추가
- [SPARK-47070] 하위 쿼리 다시 쓰기 후 잘못된 집계 수정
- [SPARK-47121][CORE] StandaloneSchedulerBackend 종료 중 RejectedExecutionExceptions 방지
- “[SPARK-46861][CORE] DAGScheduler에서 교착 상태 방지” 되돌리기
- [SPARK-47125][SQL] Univocity가 구문 분석을 트리거하지 않으면 null 반환
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier는 식 트리에 다른 식을 포함해야 합니다.
-
[SPARK-47129][CONNECT][SQL]
ResolveRelations
캐시 연결 계획 올바르게 만들기 - [SPARK-47241][SQL] ExtractGenerator에 대한 규칙 순서 문제 해결
- [SPARK-47035][SS][CONNECT] 클라이언트 쪽 수신기에 대한 프로토콜
- 운영 체제 보안 업데이트.
- 2024년 2월 29일
- MERGE 명령에서 로컬 컬렉션을 원본으로 사용할 때 작업 메트릭 numSourceRows가 올바른 행 수의 두 배를 보고하는 문제 where를 수정했습니다.
- 정의된 위치에 schema을(를) 만들려면 이제 사용자에게 ANY FILE에 SELECT 및 MODIFY 권한이 있어야 합니다.
- [SPARK-47071][SQL] 특수 식이 포함된 경우 With 식 인라인
- [SPARK-47059][SQL] ALTER COLUMN v1 명령에 대한 오류 정보 첨부
- [SPARK-46993][SQL] 세션 변수에 대한 상수 폴딩 수정
- 운영 체제 보안 업데이트.
- 2024년 1월 3일
- [SPARK-46933] JDBCRDD를 사용하는 커넥터에 쿼리 실행 시간 메트릭을 추가합니다.
- [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
- [SPARK-46954] XML: BufferedReader를 사용하여 InputStreamReader 래핑합니다.
-
[SPARK-46655]
DataFrame
메서드에서 쿼리 컨텍스트 포착을 건너뜁니다. - [SPARK-44815] df를 캐시하여 추가 RPC를 방지하십시오schema.
- [SPARK-46952] XML: 손상된 레코드의 크기: Limit.
- [SPARK-46794]Remove의 LogicalRDD 제약 조건에 대한 하위 쿼리.
- [SPARK-46736] protobuf 커넥터에서 빈 메시지 필드를 유지합니다.
- [SPARK-45182] 체크섬에 의해 결정된 대로 부모 확정되지 않은 단계를 다시 시도하면 이전 단계에서 작업 완료를 무시합니다.
- [SPARK-46414] prependBaseUri를 사용하여 javascript 가져오기를 렌더링합니다.
-
[SPARK-46383]
TaskInfo.accumulables()
의 수명을 줄여 드라이버 힙 사용량을 줄입니다. - [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- [SPARK-46954] XML: Optimizeschema 인덱스 조회.
- [SPARK-46676] dropDuplicatesWithinWatermark는 계획의 정규화에 실패하지 않아야 합니다.
- [SPARK-46644] isZero를 사용하도록 SQLMetric에서 추가 및 병합을 변경합니다.
- [SPARK-46731] 상태 데이터 원본- 판독기별로 상태 저장소 공급자 인스턴스를 관리합니다.
-
[SPARK-46677]
dataframe["*"]
해결 방법을 수정합니다. - [SPARK-46610]table 만들기는 옵션에서 키에 대한 값이 없는 경우 예외를 발생시켜야 합니다.
- ko-KR: [SPARK-46941] SizeBasedWindowFunction이 포함된 경우 최상위 k 계산을 위한 limit 노드를 insertwindow 그룹으로 만들 수 없습니다.
- [SPARK-45433] 타임스탬프가 지정된 timestampFormat과 일치하지 않는 경우 CSV/JSON schema 유추를 수정합니다.
- [SPARK-46930] Avro에서 Union 형식 필드에 대한 사용자 지정 접두사에 대한 지원을 추가합니다.
- [SPARK-46227] 14.3으로 백포트합니다.
- [SPARK-46822] jdbc 형식을 jdbc의 촉매 형식에 캐스팅할 때 spark.sql.legacy.charVarcharAsString을 존중합니다.
- 운영 체제 보안 업데이트.
Databricks Runtime 14.1
Databricks Runtime 14.1을 참조하세요.
- 2024년 11월 26일
- 운영 체제 보안 업데이트.
- 2024년 11월 5일
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- 2024년 10월 22일
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- 2024년 10월 10일
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] FlatMapGroupsWithState 사용자 함수 오류에 대한 분류 오류 클래스
- [SPARK-49743][SQL] OptimizeCsvJsonExpr은 GetArrayStructFields를 정리할 때 schema 필드를 변경하지 않아야 합니다.
- 운영 체제 보안 업데이트.
- 2024년 9월 25일
- [SPARK-49628][SQL] ConstantFolding은 평가하기 전에 상태 저장 식을 복사해야 합니다.
- [SPARK-43242][CORE] 순서 섞기 손상 진단에서 throw 'BlockId의 예기치 않은 유형'을 수정합니다.
- [SPARK-48719][SQL] 'RegrS...
- [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 "t에서select 개수(고유 1)" where t가 비어 table 수정
- [SPARK-46601] [CORE] handleStatusMessage에서 로그 오류 수정
- 운영 체제 보안 업데이트.
- 2024년 9월 17일
- [SPARK-49526][CONNECT] ArtifactManager에서 Windows 스타일 경로 지원
- 운영 체제 보안 업데이트.
- 2024년 8월 29일
- [SPARK-49263][CONNECT] Spark Connect Python 클라이언트: 부울 DataFrame 판독기 옵션을 일관되게 처리
- [SPARK-49056][SQL] ErrorClassesJsonReader가 null을 제대로 처리할 수 없음
- 2024년 8월 14일
- [SPARK-48706][PYTHON] 상위 순서 함수의 Python UDF는 내부 오류를 발생시키지 않습니다.
- [SPARK-48597][SQL] 논리 계획의 텍스트 표현에서 isStreaming 속성에 대한 표식 소개
- [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
- [SPARK-48050][SS] 쿼리 시작 시 논리 계획 기록
- 2024년 8월 1일
- 이 릴리스에는 Spark Java 인터페이스의
ColumnVector
및ColumnarArray
클래스에 대한 버그 수정이 포함되어 있습니다. 이 수정 이전에는 이러한 클래스 중 하나의 인스턴스가null
values포함되어 있을 때ArrayIndexOutOfBoundsException
throw되거나 잘못된 데이터가 반환될 수 있습니다. - 이제
SHOW CREATE TABLE
문의 출력에는 구체화된 뷰 또는 스트리밍 table에서 정의된 행 필터와 column 마스크가 모두 포함됩니다. SHOW CREATE TABLE참조하세요. 행 필터 및 column 마스크에 대해 알아보려면 행 필터 및 column 마스크를 사용하여 중요한 table 데이터를 필터링하세요. - [SPARK-48705][PYTHON] pyspark로 시작할 때 worker_main 명시적으로 사용
- [SPARK-47202][PYTHON] tzinfo를 사용하여 오타가 생긴 날짜/시간 수정
- 운영 체제 보안 업데이트.
- 이 릴리스에는 Spark Java 인터페이스의
- 2024년 7월 11일
- (동작 변경) 원본 table이(가) 덮어쓰일 경우 델타 table 원본에 대해 캐시된 데이터 프레임이 이제 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
.checkpoint()
사용하여 DataFrame의 수명 동안 table 상태를 유지합니다. - 이 릴리스에는 Databricks 컨테이너 서비스에서 실행할 때 Spark UI 환경 탭이 올바르게 표시되지 않는 문제에 대한 수정 사항이 포함되어 있습니다.
- [SPARK-48475][PYTHON] Optimize PySpark에서 _get_jvm_function.
- [SPARK-48445][SQL] 비싼 자식이 있는 UDF를 인라인하지 마세요.
- [SPARK-48481][SQL] [SS] 스트리밍 데이터 세트에 OptimizeOneRowPlan을 적용하지 마세요.
- [SPARK-48292][CORE] 되돌리기 [SPARK-39195][SQL] 커밋된 파일이 작업 상태와 일치하지 않는 경우 Spark OutputCommitCoordinator에서 단계를 중단해야 합니다.
- [SPARK-48503][SQL] 비동등한 columns 그룹별로 잘못 허용된 잘못된 스칼라 하위 쿼리를 수정
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifier의 늦은 다시 쓰기 수정
- [SPARK-48100][SQL] schema 선택되지 않은 중첩된 구조체 필드 건너뛰기 문제 수정
- [SPARK-48383][SS] Kafka의 startOffset 옵션에서 일치하지 않는 파티션에 대해 오류 개선
- 운영 체제 보안 업데이트.
- (동작 변경) 원본 table이(가) 덮어쓰일 경우 델타 table 원본에 대해 캐시된 데이터 프레임이 이제 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
- 2024년 6월 17일
- Photon TopK를 사용할 때 구조체가 있는 파티션을 잘못 처리하는 랭크window 최적화 관련 where 버그를 수정합니다.
-
[SPARK-48276][PYTHON] [CONNECT]
__repr__
에 대해 누락된SQLExpression
메서드 추가 - [SPARK-48277] ErrorClassesJsonReader.getErrorMessage에 대한 오류 메시지 개선
- 운영 체제 보안 업데이트.
- 2024년 5월 21일
- (
동작 변경 )이제 Notebook모든 위젯 지원됩니다. - [SPARK-47994][SQL] SQLServer에서 CASE WHEN column 필터 푸시다운으로 버그 수정
- [SPARK-48105][SS] 상태 저장소 언로드와 스냅샷 간의 경합 상태 수정
- [SPARK-48173][SQL] CheckAnalysis에 전체 쿼리 계획을 확인해야 합니다.
- 운영 체제 보안 업데이트.
- (
- 2024년 5월 9일
- [SPARK-47371] [SQL] XML: CDATA에 있는 행 태그 무시
- [SPARK-47895][SQL] GROUP BY ALL은 idempotent여야 합니다.
- [SPARK-47956][SQL] 해결되지 않은 LCA 참조에 대한 온전성 검사
-
[SPARK-48044][PYTHON][CONNECT]
DataFrame.isStreaming
캐시 - [SPARK-47973][CORE] SparkContext.stop() 및 이후 SparkContext.assertNotStopped()에 호출 사이트 기록
- 운영 체제 보안 업데이트.
- 2024년 4월 25일
- [SPARK-47704][SQL] spark.sql.json.enablePartialResults를 사용하도록 설정하면 "java.lang.ClassCastException"으로 JSON 구문 분석이 실패
-
[SPARK-47828][CONNECT] [PYTHON] 잘못된 계획으로
DataFrameWriterV2.overwrite
실패 - 운영 체제 보안 업데이트.
- 2024년 4월 11일
- [SPARK-47638][PS][CONNECT] PS에서 column 이름 유효성 검사를 생략하기
- [SPARK-38708][SQL] Hive Metastore 클라이언트를 Hive 3.1용 3.1.3으로 업그레이드
- [SPARK-47309][SQL][XML] schema 유추 단위 테스트 추가
- [SPARK-47509][SQL] LAMBDA 및 상위 함수에서 하위 쿼리 식 차단
- [SPARK-46990][SQL] event-hubs에서 내보낸 빈 Avro 파일 로드 수정
- 운영 체제 보안 업데이트.
- 2024년 4월 1일
- [SPARK-47305][SQL] 계획에 일괄 처리 및 스트리밍이 모두 있는 경우 PruneFilters가 LocalRelation의 isStreaming 플래그에 올바르게 태그를 지정하도록 수정
- [SPARK-47218][SQL] XML: XML tokenizer에서 주석 처리된 행 태그 무시
-
[SPARK-47300][SQL] 숫자로 시작하는
quoteIfNeeded
identifier를 따옴표로 묶어야 합니다. - [SPARK-47368][SQL] Remove ParquetRowConverter에서 InferTimestampNTZ 구성 확인
- [SPARK-47070] 하위 쿼리 다시 쓰기 후 잘못된 집계 수정
-
[SPARK-47322][PYTHON][CONNECT]
withColumnsRenamed
column 이름 중복 처리를withColumnRenamed
와 일관되게 하다 - [SPARK-47300] DecomposerSuite에 대한 수정
- [SPARK-47218] [SQL] XML: DROPMALFORMED 모드에서 SchemaOfXml이 실패하도록 변경됨
- [SPARK-47385] 옵션 입력을 사용하여 튜플 인코더 수정
- 운영 체제 보안 업데이트.
- 2024년 3월 14일
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruning 도우미 함수 있음
- [SPARK-47145][SQL] V2 전략에 대한 행 데이터 원본 검사 exec에 tableidentifier 전달합니다.
- [SPARK-47167][SQL] JDBC 익명 관계에 대해 구체적 클래스 추가
-
[SPARK-47129][CONNECT][SQL]
ResolveRelations
캐시 연결 계획 올바르게 만들기 - “[SPARK-46861][CORE] DAGScheduler에서 교착 상태 방지” 되돌리기
- [SPARK-47044][SQL] JDBC 외부 데이터 원본에 대한 실행된 쿼리를 explain 출력에 추가
- 운영 체제 보안 업데이트.
- 2024년 2월 29일
- 문제 where가 해결되었으며, MERGE 명령에서 로컬 컬렉션을 원본으로 사용할 경우 작업 메트릭 numSourceRows가 올바른 행 수의 두 배를 보고할 수 있는 문제가 있었습니다.
- 이제 특정 위치에 schema을 만들기 위해서는 사용자가 ANY FILE에 대한 SELECT 및 MODIFY 권한을 가지고 있어야 합니다.
- 이제 자동 로더, read_files, COPY INTO, DLT 및 DBSQL을 사용하여 XML 파일을 수집할 수 있습니다. XML 파일 지원은 schema을 자동으로 추출하고 발전시킬 수 있으며, 형식 불일치가 있는 데이터를 복구하고, XSD를 사용하여 XML의 유효성을 검사하며, from_xml, schema_of_xml 및 to_xml과 같은 SQL 식을 지원할 수 있습니다. 추가 세부 정보는 XML 파일 지원을 참조하세요. 이전에 외부 spark-xml 패키지를 사용했다면 마이그레이션 참고 자료는 여기를 참조하세요.
- [SPARK-46248][SQL] XML: ignoreCorruptFiles 및 ignoreMissingFiles 옵션 지원
- [SPARK-47059][SQL] ALTER COLUMN v1 명령에 오류 컨텍스트 연결
- [SPARK-46954][SQL] XML: BufferedReader를 사용하여 InputStreamReader 래핑
- [SPARK-46954][SQL] XML: Optimizeschema 인덱스 조회
- [SPARK-46630][SQL] XML: 쓰기에서 XML 요소 이름 유효성 검사
- 운영 체제 보안 업데이트.
- 2024년 2월 8일
- Unity Catalog 구체화된 views CDF(변경 데이터 피드) 쿼리는 지원되지 않으며, Unity Catalog 구체화된 뷰를 사용하여 CDF 쿼리를 실행하려고 시도하면 오류가 반환됩니다. Unity Catalog 스트리밍 tables은 Databricks Runtime 14.1 이상에서 비
APPLY CHANGES
tables에 대한 CDF 쿼리를 지원합니다. CDF 쿼리는 Databricks Runtime 14.0 이하에서 Unity Catalog 스트리밍 tables과 함께 지원되지 않습니다. - [SPARK-46952] XML: 손상된 레코드의 Limit 크기입니다.
- [SPARK-45182] 체크섬에 의해 결정된 대로 부모 확정되지 않은 단계를 다시 시도하면 이전 단계에서 작업 완료를 무시합니다.
- [SPARK-46794]의 하위 쿼리Remove는 LogicalRDD 제약 조건에서.
- [SPARK-46933] JDBCRDD를 사용하는 커넥터에 쿼리 실행 시간 메트릭을 추가합니다.
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- [SPARK-45582] 출력 모드 스트리밍 집계 내에서 커밋을 호출한 후 저장소 인스턴스가 사용되지 않는지 확인합니다.
- [SPARK-46930] Avro에서 Union 형식 필드에 대한 사용자 지정 접두사에 대한 지원을 추가합니다.
- [SPARK-46941] SizeBasedWindowFunction이 포함된 경우 최상위 k 계산을 위한 그룹 limit 노드를 insertwindow 수 없습니다.
- [SPARK-46396] 타임스탬프 유추는 예외를 throw해서는 안 됩니다.
- [SPARK-46822] jdbc 형식을 jdbc의 촉매 형식에 캐스팅할 때 spark.sql.legacy.charVarcharAsString을 존중합니다.
- [SPARK-45957] 실행 불가능한 명령에 대한 실행 계획을 생성하지 않습니다.
- 운영 체제 보안 업데이트.
- Unity Catalog 구체화된 views CDF(변경 데이터 피드) 쿼리는 지원되지 않으며, Unity Catalog 구체화된 뷰를 사용하여 CDF 쿼리를 실행하려고 시도하면 오류가 반환됩니다. Unity Catalog 스트리밍 tables은 Databricks Runtime 14.1 이상에서 비
- 2024년 1월 31일
- [SPARK-46684] 인수를 제대로 전달하도록 CoGroup.applyInPandas/Arrow를 수정합니다.
- [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
- [SPARK-45498] 후속 작업: 이전 단계 시도에서 작업 완료를 무시합니다.
-
[SPARK-46382] XML:
ignoreSurroundingSpaces
에 대한 Update 문서입니다. -
[SPARK-46383]
TaskInfo.accumulables()
의 수명을 줄여 드라이버 힙 사용량을 줄입니다. - [SPARK-46382] XML: 기본값 ignoreSurroundingSpaces를 true로 설정합니다.
-
[SPARK-46677]
dataframe["*"]
해결 방법을 수정합니다. - [SPARK-46676] dropDuplicatesWithinWatermark는 계획의 정규화에 실패하지 않아야 합니다.
- [SPARK-46633] 길이가 0인 블록을 처리하도록 Avro 판독기를 수정합니다.
- [SPARK-45912] XSDToSchema API 기능 향상: 클라우드 스토리지 접근성을 위해 HDFS API로 변경합니다.
- [SPARK-46599] XML: 호환성 검사를 위해 TypeCoercion.findTightestCommonType을 사용합니다.
- [SPARK-46382] XML: 요소 사이에 산재된 values를 캡처합니다.
- [SPARK-46769] 타임스탬프 관련 schema 유추를 구체화합니다.
- [SPARK-46610]table 만들기는 옵션에서 키에 값이 없을 때 예외를 발생시켜야 합니다.
- [SPARK-45964]Remove 촉매 패키지 내 XML 및 JSON 패키지의 비공개 SQL 접근자.
- [SPARK-46769] 타임스탬프 관련 schema 유추를 구체화합니다.
- [SPARK-45962] XML에서 대신
nullValue
옵션을 사용하여RemovetreatEmptyValuesAsNulls
. - [SPARK-46541] 모호한 column 참조를 스스로 고칩니다 join.
- 운영 체제 보안 업데이트.
- 2024년 1월 17일
- Photon 쿼리에 의해 반환된 explain 계획의
shuffle
노드는 브로드캐스트 join의 일부인 셔플 과정에서 메모리 부족 오류가 발생할 때causedBroadcastJoinBuildOOM=true
플래그를 추가하도록 업데이트됩니다. - TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 유지 관리 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
-
[SPARK-46538]
ALSModel.transform
모호한 column 참조 문제를 해결합니다. - [SPARK-46417] hive.getTable을 호출하고 throwException이 false인 경우 실패하지 마세요.
-
[SPARK-46484]
resolveOperators
도우미 함수가 계획 ID를 유지하도록 합니다. - [SPARK-46153] XML: TimestampNTZType 지원을 추가합니다.
- [SPARK-46152] XML: XML schema 유추에 DecimalType 지원을 추가합니다.
- [SPARK-46145] spark.catalog.listTables는 table 또는 뷰를 찾을 수 없는 경우 예외를 throw하지 않습니다.
- [SPARK-46478] 문자열에 oracle varchar(255)를 사용하도록 SPARK-43049를 되돌립니다.
-
[SPARK-46394] spark를 수정하기. true로 설정된
spark.sql.legacy.keepCommandOutputSchema
set 경우 특수 문자가 있는 스키마에서 .listDatabases() 관련 문제를catalog. -
[SPARK-46337]
CTESubstitution
가PLAN_ID_TAG
를 유지하게 합니다. - [SPARK-46466] 벡터화된 parquet 판독기는 타임스탬프 ntz에 대한 재베이스를 수행해서는 안 됩니다.
- [SPARK-46587] XML: XSD 큰 정수 전환을 수정합니다.
- [SPARK-45814] 메모리 누수 방지를 위해 ArrowConverters.createEmptyArrowBatch call close()를 만듭니다.
- [SPARK-46132] RPC SSL의 JKS 키에 대한 키 암호를 지원합니다.
-
[SPARK-46602] 뷰/table 없는 경우 뷰 생성 시
allowExisting
전파합니다. - [SPARK-46173] 날짜 구문 분석 중 trimAll 호출을 건너뜁니다.
- [SPARK-46355] XML: 읽기 완료 시 InputStreamReader를 닫습니다.
- [SPARK-46600] SqlConf와 SqlApiConf 간에 공유 코드를 SqlApiConfHelper로 이동합니다.
-
[SPARK-46261]
DataFrame.withColumnsRenamed
는 dict/map 순서를 유지해야 합니다. - [SPARK-46056] Parquet 벡터화된 읽기 NPE를 byteArrayDecimalType 기본값으로 수정합니다.
-
[SPARK-46260]
DataFrame.withColumnsRenamed
는 받아쓰기 순서를 준수해야 합니다. - [SPARK-46250] test_parity_listener를 안정화합니다.
- [SPARK-46370]column 기본값을 변경한 후 table 쿼리할 때 버그를 수정합니다.
- [SPARK-46609] PartitioningPreservingUnaryExecNode에서 지수 폭발을 방지합니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- Photon 쿼리에 의해 반환된 explain 계획의
- 2023년 12월 14일
- JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업에서 이스케이프된 밑줄이 잘못 처리되고 와일드카드로 해석되는 where 문제가 해결되었습니다.
- [SPARK-45509] Spark Connect에 대한 df column 참조 동작을 수정합니다.
- [SPARK-45844] XML에 대한 대/소문자 구분을 구현합니다.
- [SPARK-46141] spark.sql.legacy.ctePrecedencePolicy의 기본값을 CORRECTED로 변경합니다.
-
[SPARK-46028]
Column.__getitem__
가 입력 column을(를) 허용하도록 만듭니다. - [SPARK-46255] 복합 형식 -> 문자열 변환을 지원합니다.
- [SPARK-45655] CollectMetrics의 AggregateFunctions 내에서 비결정적 식을 허용합니다.
- [SPARK-45433] 타임스탬프가 지정된 timestampFormat과 일치하지 않는 경우 CSV/JSON schema 유추를 수정합니다.
-
[SPARK-45316]
HadoopRDD
NewHadoopRDD
새 parametersignoreCorruptFiles
/ignoreMissingFiles
추가합니다. - [SPARK-45852] 로깅하는 동안 재귀 오류를 정상적으로 처리합니다.
- [SPARK-45920] 서수별 그룹은 idempotent여야 합니다.
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
pyarrow-hotfix
를 설치했습니다. - JDBC 또는 ODBC 클라이언트에서 발생한
getColumns
작업에서 이스케이프된 밑줄이 와일드카드로 잘못 해석되는 where 문제가 해결되었습니다. - 자동 로더 또는 스트리밍 tables사용하여 CSV 데이터를 수집할 때 이제 큰 CSV 파일을 분할할 수 있으며 schema 유추 및 데이터 처리 중에 병렬로 처리할 수 있습니다.
-
[SPARK-45892]
validateSchemaOutput
및validateExprIdUniqueness
분리를 위해 최적화 프로그램 계획 유효성 검사를 리팩터링합니다. - [SPARK-45620] Python UDF와 관련된 API는 이제 camelCase를 사용합니다.
-
[SPARK-44790] Python, Spark Connect 및 SQL에 대한
to_xml
구현 및 바인딩이 추가되었습니다. -
[SPARK-45770]
DataFrameDropColumns
을 사용하여Dataframe.drop
의 column가 해결되었습니다. -
[SPARK-45859] UDF 개체를
ml.functions
지연으로 만들었습니다. -
[SPARK-45730]
ReloadingX509TrustManagerSuite
에 대한 시간 제약 조건이 개선되었습니다. - [SPARK-44784] SBT 테스트를 격리된 환경에서 실행하도록 만들었습니다.
- 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
- 2023년 11월 10일
-
[SPARK-45545]
SparkTransportConf
는 생성 시SSLOptions
을 상속합니다. - [SPARK-45250] 동적 할당이 해제된 경우 yarn 클러스터에 대한 단계 수준 작업 리소스 프로필에 대한 지원이 추가되었습니다.
- [SPARK-44753] PySpark SQL에 대한 XML DataFrame 판독기 및 기록기가 추가되었습니다.
-
[SPARK-45396]
PySpark.ml.connect
모듈에 대한 문서 항목을 추가했습니다. -
[SPARK-45584]
TakeOrderedAndProjectExec
를 사용하여 하위 쿼리 실행 실패를 수정했습니다. - [SPARK-45541] SSLFactory가 추가되었습니다.
-
[SPARK-45577] 명명된 인수에서 접힌 values을 전달하도록
UserDefinedPythonTableFunctionAnalyzeRunner
를 수정했습니다. - [SPARK-45562] 'rowTag'를 필수 옵션으로 만들었습니다.
-
[SPARK-45427]
SSLOptions
및SparkTransportConf
에 RPC SSL 설정이 추가되었습니다. - [SPARK-43380] Avro 읽기의 속도 저하가 수정되었습니다.
-
[SPARK-45430]
FramelessOffsetWindowFunction
는IGNORE NULLS
및offset > rowCount
의 경우 더 이상 실패하지 않습니다. - [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
-
[SPARK-45386]where
StorageLevel.NONE
0을 잘못 반환하는 문제를 해결했습니다. - [SPARK-44219] 최적화 재작성을 위한 규칙별 유효성 검사가 추가되었습니다.
- ko-KR: [SPARK-45543] 다른 window 함수들이 순위와 유사한 함수와 동일한 window 프레임을 가지고 있지 않을 경우 발생하던 문제를 where
InferWindowGroupLimit
수정했습니다. - 운영 체제 보안 업데이트.
-
[SPARK-45545]
- 2023년 9월 27일
-
[SPARK-44823]
black
가 23.9.1로 업데이트되고 오류 검사가 수정되었습니다. - [SPARK-45339] 이제 PySpark는 재시도하는 오류를 기록합니다.
- [SPARK-42946] 변수 대체 아래에 중첩된 중요한 데이터 삭제를 되돌립니다.
- [SPARK-44551] OSS로 sync와 관련하여 수정된 주석을.
-
[SPARK-45360] Spark 세션 작성기에서
SPARK_REMOTE
에서의 초기화를 지원합니다. -
[SPARK-45279] 모든 논리 계획에
plan_id
가 연결됩니다. -
[SPARK-45425]
TINYINT
를ShortType
용MsSqlServerDialect
에 매핑했습니다. -
[SPARK-45419]
rocksdb
sst 파일 ID를 다시 사용하지 않도록 더 큰 버전의 파일 버전 맵 항목이 제거되었습니다. -
[SPARK-45488]
rowTag
요소의 값에 대한 지원이 추가되었습니다. -
[SPARK-42205]
Accumulables
이벤트 로그의Task/Stage
시작 이벤트에 대한JsonProtocol
로깅이 제거되었습니다. -
[SPARK-45426]
ReloadingX509TrustManager
에 대한 지원이 추가되었습니다. - 초기 용량보다 더 많은 values를 쓸 때 [SPARK-45256]
DurationWriter
가 실패합니다. -
[SPARK-43380] 성능 회귀를 유발하지 않고
Avro
데이터 형식 전환 문제를 해결했습니다. - [SPARK-45182] 스테이지 출력이 확정되지 않은 경우 모든 스테이지 작업을 다시 시도 할 수 있도록 순서 섞기 맵 스테이지 롤백에 대한 지원이 추가되었습니다.
-
[SPARK-45399]
newOption
을 사용하여 XML 옵션이 추가되었습니다. - 운영 체제 보안 업데이트.
-
[SPARK-44823]
Databricks Runtime 13.3 LTS
Databricks Runtime 13.3 LTS를 참조하세요.
- 2024년 11월 26일
- [SPARK-49615] [ML] 모든 ML 기능 변환기 데이터 세트가 "spark.sql.caseSensitive" 구성을 준수하는 유효성 검사를 schema.
- 운영 체제 보안 업데이트.
- 2024년 11월 5일
- [SPARK-48843] BindParameters를 사용하여 무한 루프 방지
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Foreach 싱크 사용자 함수 오류에 대한 분류 오류 클래스
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- 운영 체제 보안 업데이트.
- 2024년 10월 22일
- [SPARK-48843] BindParameters를 사용하여 무한 루프 방지
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Foreach 싱크 사용자 함수 오류에 대한 분류 오류 클래스
- [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
- 운영 체제 보안 업데이트.
- 2024년 10월 10일
- [SPARK-49743][SQL] OptimizeCsvJsonExpr은 GetArrayStructFields를 정리할 때 schema 필드를 변경하지 않아야 합니다.
- 2024년 9월 25일
- [SPARK-46601] [CORE] handleStatusMessage에서 로그 오류 수정
- [SPARK-48719][SQL] 첫 번째 매개 변수가 null일 때 RegrSlope &RegrIntercept의 계산 버그 수정
- [SPARK-43242][CORE] 순서 섞기 손상 진단에서 throw 'BlockId의 예기치 않은 유형'을 수정합니다.
- [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 "t에서select 개수(고유 1)" where t가 비어 table 수정
- 운영 체제 보안 업데이트.
- 2024년 9월 17일
- [SPARK-49526][CONNECT] ArtifactManager에서 Windows 스타일 경로 지원
- [SPARK-48463][ML] 이진 변환기, 버킷타이저, 벡터 어셈블러, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor가 중첩된 입력을 지원하기. columns
- 운영 체제 보안 업데이트.
- 2024년 8월 29일
- 2024년 8월 14일
- [SPARK-49056][SQL] ErrorClassesJsonReader가 null을 제대로 처리할 수 없음
- [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
- [SPARK-48597][SQL] 논리 계획의 텍스트 표현에서 isStreaming 속성에 대한 표식 소개
- 2024년 8월 1일
- 이 릴리스에는 Spark Java 인터페이스의
ColumnVector
및ColumnarArray
클래스에 대한 버그 수정이 포함되어 있습니다. 이 수정 이전에는 이러한 클래스 중 하나의 인스턴스가null
values포함되어 있을 때ArrayIndexOutOfBoundsException
throw되거나 잘못된 데이터가 반환될 수 있습니다. - [SPARK-47202][PYTHON] tzinfo를 사용하여 오타가 생긴 날짜/시간 수정
- [SPARK-48896][SPARK-48909][SPARK-48883] 백포트 spark ML 기록기 수정
- [SPARK-48463] 중첩된 입력 columns 지원하는 StringIndexer를 만듭니다.
- 운영 체제 보안 업데이트.
- 이 릴리스에는 Spark Java 인터페이스의
- 2024년 7월 11일
- (동작 변경) table 원본이 덮어쓰여지면 델타 table 소스를 기반으로 한 데이터프레임이 이제 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
.checkpoint()
사용하여 DataFrame의 수명 동안 table 상태를 유지합니다. - 이 릴리스에는 Databricks 컨테이너 서비스에서 실행할 때 Spark UI 환경 탭이 올바르게 표시되지 않는 문제에 대한 수정 사항이 포함되어 있습니다.
- [SPARK-48383][SS] Kafka의 startOffset 옵션에서 일치하지 않는 파티션에 대해 오류 개선
- [SPARK-48292][CORE] 되돌리기 [SPARK-39195][SQL] 커밋된 파일이 작업 상태와 일치하지 않는 경우 Spark OutputCommitCoordinator에서 단계를 중단해야 합니다.
- [SPARK-48503][SQL] 비동등한 columns에 대한 그룹별로 잘못 허용된 잘못된 스칼라 하위 쿼리 수정
- [SPARK-48481][SQL] [SS] 스트리밍 데이터 세트에 OptimizeOneRowPlan을 적용하지 마세요.
- [SPARK-48475][PYTHON]
_get_jvm_function이 PySpark에서 . - [SPARK-48273][SQL] PlanWithUnresolvedIdentifier의 늦은 다시 쓰기 수정
- [SPARK-48445][SQL] 비싼 자식이 있는 UDF를 인라인하지 마세요.
- 운영 체제 보안 업데이트.
- (동작 변경) table 원본이 덮어쓰여지면 델타 table 소스를 기반으로 한 데이터프레임이 이제 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
- 2024년 6월 17일
- [SPARK-48277] ErrorClassesJsonReader.getErrorMessage에 대한 오류 메시지 개선
- 운영 체제 보안 업데이트.
- 2024년 5월 21일
- (
동작 변경 )이제 Notebook모든 위젯 지원됩니다. - [SPARK-48105][SS] 상태 저장소 언로드와 스냅샷 간의 경합 상태 수정
- [SPARK-47994][SQL] SQLServer에서 CASE WHEN column 필터 푸시다운 관련 버그 수정
- 운영 체제 보안 업데이트.
- (
- 2024년 5월 9일
- [SPARK-47956][SQL] 해결되지 않은 LCA 참조에 대한 온전성 검사
- [SPARK-46822][SQL] jdbc 형식을 jdbc의 촉매 형식으로 캐스팅할 때 spark.sql.legacy.charVarcharAsString을 준수합니다.
- [SPARK-47895][SQL] GROUP BY ALL은 idempotent여야 합니다.
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange가 발생할 때 매개 변수 오류가 누락되는 null groupId 수정
- [SPARK-47973][CORE] SparkContext.stop() 및 이후 SparkContext.assertNotStopped()에 호출 사이트 기록
- 운영 체제 보안 업데이트.
- 2024년 4월 25일
- [SPARK-44653][SQL] 사소한 DataFrame이 아닌 공용 구조체는 캐싱을 중단해서는 안 됩니다.
- 기타 버그가 수정되었습니다.
- 2024년 4월 11일
- [SPARK-47509][SQL] LAMBDA 및 상위 함수에서 하위 쿼리 식 차단
- 운영 체제 보안 업데이트.
- 2024년 4월 1일
- [SPARK-47385] 옵션 입력을 사용하여 튜플 인코더 수정
- [SPARK-38708][SQL] Hive Metastore 클라이언트를 Hive 3.1용 3.1.3으로 업그레이드
- [SPARK-47200][SS] Foreach 일괄 처리 싱크 사용자 함수 오류에 대한 오류 클래스
- [SPARK-47368][SQL] Remove ParquetRowConverter에서 InferTimestampNTZ 설정 확인
- [SPARK-44252][SS] 새 오류 클래스를 정의하고 DFS에서 로드 상태가 실패하는 경우 where 적용
- [SPARK-47135][SS] Kafka 데이터 손실 예외에 대한 오류 클래스 구현
-
[SPARK-47300][SQL] 숫자로 시작하는 identifier는
quoteIfNeeded
따옴표로 묶어야 합니다. - [SPARK-47305][SQL] 계획에 일괄 처리 및 스트리밍이 모두 있는 경우 PruneFilters가 LocalRelation의 isStreaming 플래그에 올바르게 태그를 지정하도록 수정
- [SPARK-47070] 하위 쿼리 다시 쓰기 후 잘못된 집계 수정
- 운영 체제 보안 업데이트.
- 2024년 3월 14일
- [SPARK-47145][SQL] V2 전략을 위한 행 데이터 소스 스캔 실행에 tableidentifier를 전달합니다.
- [SPARK-47167][SQL] JDBC 익명 관계에 대해 구체적 클래스 추가
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruning 도우미 함수 있음
- [SPARK-47044][SQL] JDBC 외부 데이터 소스에 대해 실행된 쿼리를 explain 출력에 추가
- [SPARK-47125][SQL] Univocity가 구문 분석을 트리거하지 않으면 null 반환
- 운영 체제 보안 업데이트.
- 2024년 2월 29일
- 로컬 컬렉션을 원본으로 사용하는 MERGE 명령에서 발생할 수 있는 문제 where가 해결되어, 작업 메트릭 numSourceRows가 올바른 행 수보다 두 배 많은 수를 보고할 수 있는 문제가 수정되었습니다.
- 이제 정의된 위치로 schema 만들려면 사용자에게 ANY FILE에 대한 SELECT 및 MODIFY 권한이 있어야 합니다.
- 운영 체제 보안 업데이트.
- 2024년 2월 8일
- 구체화된 views Unity Catalog CDF(변경 데이터 피드) 쿼리는 지원되지 않으며 Unity Catalog 구체화된 뷰를 사용하여 CDF 쿼리를 실행하려고 시도하면 오류가 반환됩니다. Databricks Runtime 14.1 이상에서 Unity Catalog 스트리밍 tables은 비
APPLY CHANGES
tables에 대한 CDF 쿼리를 지원합니다. Databricks Runtime 14.0 이하에서는 Unity Catalog 스트리밍 tables과 함께 CDF 쿼리가 지원되지 않습니다. - [SPARK-46794]는 LogicalRDD 제약 조건으로부터Remove 하위 쿼리를 처리합니다.
- [SPARK-46933] JDBCRDD를 사용하는 커넥터에 쿼리 실행 시간 메트릭을 추가합니다.
- [SPARK-45582] 출력 모드 스트리밍 집계 내에서 커밋을 호출한 후 저장소 인스턴스가 사용되지 않는지 확인합니다.
- [SPARK-46396] 타임스탬프 유추는 예외를 throw해서는 안 됩니다.
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- [SPARK-46941] SizeBasedWindowFunction이 포함된 경우 K 최상위 계산을 위해 insertwindow 그룹 limit 노드를 설정할 수 없습니다.
- 운영 체제 보안 업데이트.
- 구체화된 views Unity Catalog CDF(변경 데이터 피드) 쿼리는 지원되지 않으며 Unity Catalog 구체화된 뷰를 사용하여 CDF 쿼리를 실행하려고 시도하면 오류가 반환됩니다. Databricks Runtime 14.1 이상에서 Unity Catalog 스트리밍 tables은 비
- 2024년 1월 31일
- [SPARK-46610]table 만들기는 옵션에서 키에 대한 값이 없는 경우 예외를 throw해야 합니다.
- [SPARK-46383] TaskInfo.accumulables()의 수명을 줄여 드라이버 힙 사용량을 줄입니다.
- [SPARK-46600] SqlConf와 SqlApiConf 간에 공유 코드를 SqlApiConfHelper로 이동합니다.
- [SPARK-46676] dropDuplicatesWithinWatermark는 계획의 정규화에 실패하지 않아야 합니다.
- [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 17일
- Photon 쿼리에서 반환된 explain 계획의
shuffle
노드는 브로드캐스트 join일부인 순서 섞기 중에 메모리 부족 오류가 발생할 때causedBroadcastJoinBuildOOM=true
플래그를 추가하도록 업데이트됩니다. - TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 유지 관리 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- [SPARK-46173] 날짜 구문 분석 중 trimAll 호출을 건너뜁니다.
- [SPARK-46370]column 기본값을 변경한 후 table에서 쿼리할 때 발생하는 버그를 수정합니다.
- [SPARK-46370]column 기본값을 변경한 후 table를 쿼리하는 경우에 버그 수정.
- [SPARK-46370]column 기본값을 변경한 후 table에서 쿼리할 때 버그를 수정합니다.
- [SPARK-46609] PartitioningPreservingUnaryExecNode에서 지수 폭발을 방지합니다.
- [SPARK-46132] RPC SSL의 JKS 키에 대한 키 암호를 지원합니다.
-
[SPARK-46602] 뷰/table 없는 경우 뷰 생성 시
allowExisting
전파합니다. - [SPARK-46249] 백그라운드 작업과의 경합을 방지하기 위해 RocksDB 메트릭을 획득하려면 인스턴스 잠금이 필요합니다.
- [SPARK-46417] hive.getTable을 호출하고 throwException이 false인 경우 실패하지 마세요.
-
[SPARK-46538]
ALSModel.transform
모호한 column 참조 문제를 해결합니다. - [SPARK-46478] 문자열에 oracle varchar(255)를 사용하도록 SPARK-43049를 되돌립니다.
- [SPARK-46250] test_parity_listener를 안정화합니다.
-
[SPARK-46394] spark를 수정합니다. true로
spark.sql.legacy.keepCommandOutputSchema
set 경우 특수 문자가 있는 스키마에서 .listDatabases() 문제를catalog. - [SPARK-46056] Parquet 벡터화된 읽기 NPE를 byteArrayDecimalType 기본값으로 수정합니다.
- [SPARK-46145] spark.catalog.listTables는 table 또는 뷰를 찾을 수 없는 경우 예외를 throw하지 않습니다.
- [SPARK-46466] 벡터화된 parquet 판독기는 타임스탬프 ntz에 대한 재베이스를 수행해서는 안 됩니다.
- Photon 쿼리에서 반환된 explain 계획의
- 2023년 12월 14일
- JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업에서 이스케이프된 밑줄이 잘못 처리되고 와일드카드로 해석되는 where 문제가 해결되었습니다.
- [SPARK-45920] 서수별 그룹은 idempotent여야 합니다.
- [SPARK-44582] 정리된 경우 SMJ에서 반복기를 건너뜁니다.
- [SPARK-45433] 타임스탬프가 지정된 timestampFormat과 일치하지 않는 경우 CSV/JSON schema 유추를 수정합니다.
- [SPARK-45655] CollectMetrics의 AggregateFunctions 내에서 비결정적 식을 허용합니다.
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
pyarrow-hotfix
를 설치했습니다. - Spark-snowflake 커넥터가 2.12.0으로 업그레이드되었습니다.
-
[SPARK-44846]
RemoveRedundantAggregates
뒤의 복합 그룹화 식이 제거되었습니다. -
[SPARK-45544]
TransportContext
에 대한 SSL 지원이 통합되었습니다. -
[SPARK-45892]
validateSchemaOutput
및validateExprIdUniqueness
분리를 위해 최적화 프로그램 계획 유효성 검사를 리팩터링합니다. -
[SPARK-45730]
ReloadingX509TrustManagerSuite
에 대한 시간 제약 조건이 개선되었습니다. -
[SPARK-45859] UDF 개체를
ml.functions
지연으로 만들었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
- 2023년 11월 10일
- 더 나은 사용률을 위해 속도 제한 전에 Delta Lake 스트리밍 쿼리에 대한 Partition 필터가 푸시다운됩니다.
- Unity Catalog 스트리밍 tables 데이터 피드 쿼리가 변경되고 오류 메시지가 표시되도록 views 구체화되었습니다.
-
[SPARK-45545]
SparkTransportConf
는 생성 시SSLOptions
을 상속합니다. -
[SPARK-45584]
TakeOrderedAndProjectExec
를 사용하여 하위 쿼리 실행 실패를 수정했습니다. -
[SPARK-45427]
SSLOptions
및SparkTransportConf
에 RPC SSL 설정이 추가되었습니다. -
[SPARK-45541]
SSLFactory
가 추가되었습니다. -
[SPARK-45430]
FramelessOffsetWindowFunction
는IGNORE NULLS
및offset > rowCount
의 경우 더 이상 실패하지 않습니다. - [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
- [SPARK-44219] 최적화 재작성을 위한 규칙별 추가 유효성 검사가 추가되었습니다.
-
[SPARK-45543] 다른 window 함수에 순위와 유사한 함수와 동일한 window 프레임이 없는 경우 where
InferWindowGroupLimit
문제가 발생하는 문제를 해결했습니다. - 운영 체제 보안 업데이트.
- 2023년 10월 23일
-
[SPARK-45256] 초기 용량보다 더 많은 values를 작성할 때 where
DurationWriter
가 실패하던 문제를 해결했습니다. -
[SPARK-45419] 더 큰 버전의 파일 버전 맵 항목을 제거하여 다른
rocksdb sst
인스턴스에서rocksdb
파일을 다시 사용하지 마세요. -
[SPARK-45426]
ReloadingX509TrustManager
에 대한 지원이 추가되었습니다. - 기타 파일.
-
[SPARK-45256] 초기 용량보다 더 많은 values를 작성할 때 where
- 2023년 10월 13일
- Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
-
array_insert
함수는 양수 및 음수 인덱스에 대해 1부터 시작합니다. 이전에는 음수 인덱스의 경우 0부터 시작했습니다. 이제 인덱스 -1의 입력 배열 끝에 새 요소를 삽입합니다. restore 이전 동작을 setspark.sql.legacy.negativeIndexInArrayInsert
true
. - 자동 로더를 사용하여 CSV schema 추론 시
ignoreCorruptFiles
이 활성화된 경우 손상된 파일을 무시할 때의 문제를 해결했습니다. - 되돌리기 [SPARK-42946].
- [SPARK-42205] 작업 또는 스테이지 시작 이벤트에서 accumulables 로깅을 remove JSON 프로토콜을 업데이트했습니다.
-
[SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본이 있는
Trigger.AvailableNow
에 대해 단일 일괄 처리를 실행하는 것으로 대체합니다. -
[SPARK-45316]
HadoopRDD
및NewHadoopRDD
새 parametersignoreCorruptFiles
및ignoreMissingFiles
추가합니다. - [SPARK-44740] 아티팩트에 대한 고정 메타데이터 values.
-
[SPARK-45360]
SPARK_REMOTE
에서 Spark 세션 작성기 구성을 초기화했습니다. - [SPARK-44551]OSS를 사용하여 sync 위해 편집된 주석을.
- [SPARK-45346] Parquet schema 유추는 이제 schema병합할 때 대/소문자를 구분하는 플래그를 존중합니다.
-
[SPARK-44658] 이제
ShuffleStatus.getMapStatus
에서None
가 아닌Some(null)
을 반환합니다. -
[SPARK-44840] 음수 인덱스에 대해
array_insert()
을 1 기준으로 만들었습니다.
- 2023년 9월 14일
-
[SPARK-44873] Hive 클라이언트에서 columns가 중첩된
alter view
에 대한 지원이 추가되었습니다. -
[SPARK-44878] 캐시에 대한 삽입 예외를 방지하기 위해
RocksDB
쓰기 관리자에 대해 엄격한 limit 해제했습니다.
-
[SPARK-44873] Hive 클라이언트에서 columns가 중첩된
- 2023년 8월 30일
- 더 빠른 복사를 위해 dbutils
cp
명령(dbutils.fs.cp
)이 최적화되었습니다. 이 향상된 기능을 사용하면 파일 크기에 따라 복사 작업에 시간이 최대 100까지 단축될 수 있습니다. 이 기능은 Unity CatalogVolumes 및 DBFS 탑재를 포함하여 Databricks에서 액세스할 수 있는 모든 클라우드 및 파일 시스템에서 사용할 수 있습니다. -
[SPARK-44455]
SHOW CREATE TABLE
결과에 백틱이 있는 따옴표 식별자입니다. - [SPARK-44763] 간격이 있는 이진 산술 연산에서 문자열을 double로 표시하는 문제를 해결했습니다.
-
[SPARK-44871]
percentile_disc
동작이 수정되었습니다. - [SPARK-44714] 쿼리에 대한 LCA 확인의 제한이 완화됩니다.
-
[SPARK-44818]
taskThread
이 초기화되기 전에 실행된 보류 중인 작업 중단에 대한 경합이 수정되었습니다. - [SPARK-44505] DSv2용 검색에서 열 형식 지원에 대한 재정의가 추가되었습니다.
- [SPARK-44479] 빈 구조체 형식에서의 protobuf 전환이 수정되었습니다.
-
[SPARK-44718]
ColumnVector
메모리 모드 구성 기본값을OffHeapMemoryMode
구성 값과 일치시킵니다. -
[SPARK-42941] Python
StreamingQueryListener
에 대한 지원이 추가되었습니다. - [SPARK-44558] PySpark의 Spark Connect 로그 수준을 내보냅니다.
-
[SPARK-44464] 첫 번째 column 값이 Null인 행을 출력하도록
applyInPandasWithStatePythonRunner
를 수정했습니다. -
[SPARK-44643] 필드에 행이 비어 있는 경우
Row.__repr__
를 수정했습니다. - 운영 체제 보안 업데이트.
- 더 빠른 복사를 위해 dbutils
Databricks Runtime 12.2 LTS
Databricks Runtime 12.2 LTS을 참조하세요.
- 2024년 11월 26일
- 기타 버그가 수정되었습니다.
- 2024년 10월 10일
- [SPARK-49743][SQL] OptimizeCsvJsonExpr은 GetArrayStructFields를 정리할 때 schema 필드를 변경하지 않아야 합니다.
- 2024년 9월 25일
- [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 "t에서select 개수(고유 1)" where t가 비어 table 수정
- [SPARK-46601] [CORE] handleStatusMessage에서 로그 오류 수정
- 기타 버그가 수정되었습니다.
- 2024년 9월 17일
- 운영 체제 보안 업데이트.
- 2024년 8월 29일
- 기타 버그가 수정되었습니다.
- 2024년 8월 14일
- [SPARK-48941][SPARK-48970] 백포트 ML 기록기/판독기 수정
- [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
- [SPARK-49056][SQL] ErrorClassesJsonReader가 null을 제대로 처리할 수 없음
- [SPARK-48597][SQL] 논리 계획의 텍스트 표현에서 isStreaming 속성에 대한 표식 소개
- [SPARK-48463][ML] StringIndexer가 중첩 입력을 지원하도록 개선합니다. columns
- 운영 체제 보안 업데이트.
- 2024년 8월 1일
- [SPARK-48896][SPARK-48909][SPARK-48883] 백포트 spark ML 기록기 수정
- 2024년 8월 1일
- 필요한 보안 패치를 적용하기 위해 Databricks Runtime 12.2 LTS의 Python 버전이 3.9.5에서 3.9.19로 업그레이드됩니다.
- 2024년 7월 11일
- (동작 변경) 이제 원본 table 덮어쓰면 델타 table 원본에 대해 캐시된 데이터 프레임이 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
.checkpoint()
사용하여 DataFrame의 수명 동안 table 상태를 유지합니다. - [SPARK-48481][SQL] [SS] 스트리밍 데이터 세트에 OptimizeOneRowPlan을 적용하지 마세요.
- [SPARK-47070] 하위 쿼리 다시 쓰기 후 잘못된 집계 수정
- [SPARK-42741][SQL] 리터럴이 null인 경우 이진 비교에서 캐스팅 래핑 해제 안 함
- [SPARK-48445][SQL] 비싼 자식이 있는 UDF를 인라인하지 마세요.
- [SPARK-48503][SQL] 비등가 columns에 대해 잘못 허용된 그룹별 스칼라 하위 쿼리 수정
- [SPARK-48383][SS] Kafka의 startOffset 옵션에서 일치하지 않는 파티션에 대해 오류 개선
- 운영 체제 보안 업데이트.
- (동작 변경) 이제 원본 table 덮어쓰면 델타 table 원본에 대해 캐시된 데이터 프레임이 무효화됩니다. 이 변경은 이제 델타 tables 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다.
- 2024년 6월 17일
- [SPARK-48277] ErrorClassesJsonReader.getErrorMessage에 대한 오류 메시지 개선
- 기타 버그가 수정되었습니다.
- 2024년 5월 21일
- [SPARK-48105][SS] 상태 저장소 언로드와 스냅샷 간의 경합 상태 수정
- 운영 체제 보안 업데이트.
- 2024년 5월 9일
- [SPARK-44251][SQL]Set 전체 외부의 병합된 join 키에서 null을 올바르게 join
- [SPARK-47973][CORE] SparkContext.stop() 및 이후 SparkContext.assertNotStopped()에 호출 사이트 기록
- [SPARK-47956][SQL] 해결되지 않은 LCA 참조에 대한 온전성 검사
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange가 발생할 때 매개 변수 오류가 누락되는 null groupId 수정
- 운영 체제 보안 업데이트.
- 2024년 4월 25일
- 운영 체제 보안 업데이트.
- 2024년 4월 11일
- 운영 체제 보안 업데이트.
- 2024년 4월 1일
- [SPARK-47305][SQL] 계획에 일괄 처리 및 스트리밍이 모두 있는 경우 PruneFilters가 LocalRelation의 isStreaming 플래그에 올바르게 태그를 지정하도록 수정
- [SPARK-44252][SS] 새 오류 클래스를 정의하고 DFS에서 로드 상태가 실패하는 경우 where 적용
- [SPARK-47135][SS] Kafka 데이터 손실 예외에 대한 오류 클래스 구현
- [SPARK-47200][SS] Foreach 일괄 처리 싱크 사용자 함수 오류에 대한 오류 클래스
- 운영 체제 보안 업데이트.
- 2024년 3월 14일
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruning 도우미 함수 있음
- “[SPARK-46861][CORE] DAGScheduler에서 교착 상태 방지” 되돌리기
- [SPARK-47125][SQL] Univocity가 구문 분석을 트리거하지 않으면 null 반환
- [SPARK-47167][SQL] JDBC 익명 관계에 대해 구체적 클래스 추가
- 운영 체제 보안 업데이트.
- 2024년 2월 29일
- MERGE 명령에서 로컬 컬렉션을 원본으로 사용하는 where 문제가 해결되면 작업 메트릭 numSourceRows 보고가 올바른 행 수를 두 배로 늘릴 수 있습니다.
- 이제 정의된 위치에 schema을 만들려면 사용자가 ANY FILE에 대한 SELECT 및 MODIFY 권한을 가지고 있어야 합니다.
- [SPARK-45582][SS] 출력 모드 스트리밍 집계 내에서 커밋을 호출한 후 저장소 인스턴스가 사용되지 않는지 확인
- 운영 체제 보안 업데이트.
- 2024년 2월 13일
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- [SPARK-46794]는 LogicalRDD 제약 조건에서 하위 쿼리를Remove합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
- 운영 체제 보안 업데이트.
- 2023년 12월 25일
- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 유지 관리 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-39440] 이벤트 타임라인을 사용 중지하는 구성을 추가합니다.
- [SPARK-46132] RPC SSL의 JKS 키에 대한 키 암호를 지원합니다.
-
[SPARK-46394] spark의 .listDatabases() 호출에서 특수 문자가 포함된 스키마의 문제를catalog.
spark.sql.legacy.keepCommandOutputSchema
set가 true로 설정된 경우 발생. - [SPARK-46417] hive.getTable을 호출하고 throwException이 false인 경우 실패하지 마세요.
- [SPARK-43067] Kafka 커넥터에서 오류 클래스 리소스 파일의 위치를 수정합니다.
- [SPARK-46249] 백그라운드 작업과의 경합을 방지하기 위해 RocksDB 메트릭을 획득하려면 인스턴스 잠금이 필요합니다.
-
[SPARK-46602] 뷰/table 없는 경우 뷰 생성 시
allowExisting
전파합니다. - [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- [SPARK-46145] spark.catalog.listTables는 table 또는 뷰를 찾을 수 없는 경우 예외를 throw하지 않습니다.
-
[SPARK-46538]
ALSModel.transform
에서의 모호한 column 참조 문제를 해결합니다. - [SPARK-42852] EquivalentExpressions에서 NamedLambdaVariable 관련 변경 내용을 되돌립니다.
- 2023년 12월 14일
- JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업에서 이스케이프된 밑줄이 잘못 처리되고 와일드카드로 해석되는 where 문제가 해결되었습니다.
- [SPARK-44582] 정리된 경우 SMJ에서 반복기를 건너뜁니다.
- [SPARK-45920] 서수별 그룹은 idempotent여야 합니다.
- [SPARK-45655] CollectMetrics의 AggregateFunctions 내에서 비결정적 식을 허용합니다.
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
pyarrow-hotfix
를 설치했습니다. - JDBC 또는 ODBC 클라이언트에서 시작된
getColumns
작업에 대해 이스케이프된 밑줄이 와일드카드로 잘못 해석되는 문제 where가 해결되었습니다. -
[SPARK-42205]
Stage
및Task
시작 이벤트의 accumulables 로깅을 제거했습니다. -
[SPARK-44846]
RemoveRedundantAggregates
뒤의 복합 그룹화 식이 제거되었습니다. -
[SPARK-43718]
USING
조인의 키에 대한 null 허용 여부가 수정되었습니다. -
[SPARK-45544]
TransportContext
에 대한 SSL 지원이 통합되었습니다. - [SPARK-43973] 이제 구조적 스트리밍 UI가 실패한 쿼리를 올바르게 표시합니다.
-
[SPARK-45730]
ReloadingX509TrustManagerSuite
에 대한 시간 제약 조건이 개선되었습니다. -
[SPARK-45859] UDF 개체를
ml.functions
지연으로 만들었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
- 2023년 11월 14일
- 더 나은 사용률을 달성하기 위해 속도 제한 전에 Delta Lake 스트리밍 쿼리에 대한 Partition 필터가 푸시다운됩니다.
-
[SPARK-45545]
SparkTransportConf
는 생성 시SSLOptions
을 상속합니다. -
[SPARK-45427]
SSLOptions
및SparkTransportConf
에 RPC SSL 설정이 추가되었습니다. -
[SPARK-45584]
TakeOrderedAndProjectExec
를 사용하여 하위 쿼리 실행 실패를 수정했습니다. -
[SPARK-45541]
SSLFactory
가 추가되었습니다. -
[SPARK-45430]
FramelessOffsetWindowFunction
는IGNORE NULLS
및offset > rowCount
의 경우 더 이상 실패하지 않습니다. - [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
- 운영 체제 보안 업데이트.
- 2023년 10월 24일
-
[SPARK-45426]
ReloadingX509TrustManager
에 대한 지원이 추가되었습니다. - 기타 파일.
-
[SPARK-45426]
- 2023년 10월 13일
- Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
- [SPARK-42553] 간격 후에 하나 이상의 시간 단위를 확인합니다.
- [SPARK-45346] Parquet schema 유추는 schema병합할 때 대/소문자 구분 플래그를 존중합니다.
-
[SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본이 있는
Trigger.AvailableNow
에 대해 단일 일괄 처리를 실행하는 것으로 대체합니다. -
[SPARK-45084]
StateOperatorProgress
정확하고 적절한 셔플 partition 번호를 사용합니다.
- 2023년 9월 12일
-
[SPARK-44873] Hive 클라이언트에 columns가 중첩된
alter view
에 대한 지원이 추가되었습니다. -
[SPARK-44718]
ColumnVector
메모리 모드 구성 기본값을OffHeapMemoryMode
구성 값과 일치시킵니다. -
[SPARK-43799] PySpark
Protobuf
API에 설명자 이진 옵션이 추가되었습니다. - 기타 파일.
-
[SPARK-44873] Hive 클라이언트에 columns가 중첩된
- 2023년 8월 30일
-
[SPARK-44485]
TreeNode.generateTreeString
를 최적화합니다. -
[SPARK-44818]
taskThread
이 초기화되기 전에 실행된 보류 중인 작업 중단에 대한 경합이 수정되었습니다. -
[SPARK-44871][11.3-13.0]
percentile_disc
동작이 수정되었습니다. - [SPARK-44714] 쿼리에 대한 LCA 확인의 제한이 완화되었습니다.
- 운영 체제 보안 업데이트.
-
[SPARK-44485]
- 2023년 8월 15일
- [SPARK-44504] 유지 관리 작업은 중지 오류 발생시 로드된 providers 정리합니다.
-
[SPARK-44464]
Null
을(를) 첫 번째 column 값으로 가지는 출력 행을 출력하도록applyInPandasWithStatePythonRunner
수정됨. - 운영 체제 보안 업데이트.
- 2023년 7월 29일
- 다른 외부 또는 관리되는 스토리지 위치와 충돌하는 스토리지 위치 경로를 호출할 때
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
반환되는 wheredbutils.fs.ls()
문제를 해결했습니다. -
[SPARK-44199]
CacheManager
가 더 이상 불필요하게fileIndex
를 새로 고치지 않습니다. - 운영 체제 보안 업데이트.
- 다른 외부 또는 관리되는 스토리지 위치와 충돌하는 스토리지 위치 경로를 호출할 때
- 2023년 7월 24일
-
[SPARK-44337]where 필드 set가
Any.getDefaultInstance
구문 분석 오류를 일으키는 문제가 해결되었습니다. -
[SPARK-44136]where
StateManager
FlatMapGroupsWithStateExec
드라이버 대신 실행기에서 구체화되지 get 문제를 해결했습니다. - 운영 체제 보안 업데이트.
-
[SPARK-44337]where 필드 set가
- 2023년 6월 23일
- 운영 체제 보안 업데이트.
- 2023년 6월 15일
-
approx_count_distinct
를 광자화했습니다. - Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
-
[SPARK-43779]
ParseToDate
이 이제 주 스레드에서EvalMode
를 로드합니다. -
[SPARK-43156][SPARK-43098]
decorrelateInnerQuery
이 비활성화된 스칼라 하위 쿼리 수 오류 테스트를 확장합니다. - 운영 체제 보안 업데이트.
-
- 2023년 6월 2일
-
failOnUnknownFields
모드의 JSON 파서는DROPMALFORMED
모드에서 레코드를 삭제하고FAILFAST
모드에서 바로 실패합니다. -
SHALLOW CLONE
Iceberg 및 Parquet을 사용하여 증분 업데이트의 성능을 향상시킵니다. - 제공된 schema에 추론된 파티션이 포함되지 않은 경우, 다양한 소스 파일 형식이 일관되지 않던 where 자동 로더의 문제가 수정되었습니다. 이 문제로 인해 유추된 partitionschema에서 columns이/가 누락된 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
- [SPARK-43404] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
-
[SPARK-43413][11.3-13.0]
IN
하위 쿼리ListQuery
null 허용 여부가 수정되었습니다. - [SPARK-43522] 배열 인덱스를 사용하여 구조체 column 이름 만들기가 수정되었습니다.
-
[SPARK-43541] 식을 해결하고 누락된 columns를 확인할 때 모든
Project
태그를 전파합니다. -
[SPARK-43527] PySpark에서
catalog.listCatalogs
가 수정되었습니다. - [SPARK-43123] 내부 필드 메타데이터가 더 이상 catalogs로 누출되지 않습니다.
- [SPARK-43340] 이벤트 로그에서 누락된 스택 추적 필드가 수정되었습니다.
-
[SPARK-42444]
DataFrame.drop
이제 중복된 columns 올바르게 처리합니다. -
[SPARK-42937]
PlanSubqueries
이 이제InSubqueryExec#shouldBroadcast
을 true로 설정합니다. -
[SPARK-43286]
aes_encrypt
CBC 모드가 임의 EV를 generate 업데이트되었습니다. -
[SPARK-43378]
deserializeFromChunkedBuffer
에서 스트림 개체를 제대로 닫습니다.
-
- 2023년 5월 17일
- Parquet 검사는 일괄 처리 크기를 동적으로 조정하여 매우 구조화된 파일을 검색할 때 OOM에 대해 강력해졌습니다. 파일 메타데이터는 일괄 처리 크기를 선제적으로 낮추기 위해 분석되며, 작업 재시도 시 최종 안전망으로 다시 낮아집니다.
-
failOnUnknownFields
옵션만 사용하거나failOnNewColumns
schema 진화 모드에서 자동 로더를 사용하여 Avro 파일을 읽은 경우, 데이터 형식이 다른 columns가 파일을 읽을 수 없다고 오류를 발생시키는 대신,null
로 읽게 됩니다. 이러한 읽기는 이제 실패하고 사용자에게rescuedDataColumn
옵션을 사용하도록 권장합니다. - 이제 자동 로더가 다음을 수행합니다.
-
-
Integer
,Short
,Byte
데이터 형식 중 하나가 제공되면 올바르게 읽고 더 이상 이러한 형식을 구조하지 않지만, Avro 파일은 다른 두 형식 중 하나를 제안합니다.
-
-
- 날짜 또는 타임스탬프 형식으로 읽기 간격 형식을 방지하여 날짜가 손상되지 않도록 합니다.
-
- 정밀도가 낮은 읽기
Decimal
형식을 방지합니다.
- 정밀도가 낮은 읽기
- [SPARK-43172] Spark Connect 클라이언트에서 호스트 및 토큰을 노출합니다.
-
[SPARK-43293] 일반
__qualified_access_only
은(는) columns에서 무시됩니다. -
[SPARK-43098] 스칼라 하위 쿼리를 절별로 그룹화 할 때 수정
COUNT
버그가 수정되었습니다. -
[SPARK-43085] 다중 파트 table 이름에 대한 column
DEFAULT
할당에 대한 지원 -
[SPARK-43190]
ListQuery.childOutput
은 이제 보조 출력과 일치합니다. - [SPARK-43192] 사용자 에이전트 문자 집합 유효성 검사가 제거되었습니다.
- 운영 체제 보안 업데이트.
- 2023년 4월 25일
- parquet 파일을
failOnUnknownFields
옵션만 사용하거나failOnNewColumns
schema 진화 모드에서 자동 로더를 사용하여 읽는 경우, 다른 데이터 형식을 가진 columns가 있는 파일을 읽을 수 없다는 오류를 발생시키는 대신null
로 읽습니다. 이러한 읽기는 이제 실패하고 사용자에게rescuedDataColumn
옵션을 사용하도록 권장합니다. - 이제 자동 로더가 올바르게 읽고 이러한 데이터 형식 중 하나가 제공되면
Integer
,Short
,Byte
형식을 더 이상 복구 하지 않습니다. Parquet 파일은 다른 두 형식 중 하나를 제안합니다. 이전에 구조된 데이터 column 사용하도록 설정한 경우 데이터 형식이 일치하지 않으면 읽을 수 있더라도 columns 저장됩니다. -
[SPARK-43009]
sql()
상수로Any
가 매개 변수화 - [SPARK-42406] 필드를 삭제하여 Protobuf 재귀 필드 종료
-
[SPARK-43038]
aes_encrypt()
/aes_decrypt()
의 CBC 모드 지원 -
[SPARK-42971] 작업자가
workdir
이벤트를 처리할 때appDirs
이 null인 경우WorkDirCleanup
를 인쇄하도록 변경 - [SPARK-43018]INSERT 명령의 타임스탬프 리터럴 관련 버그 수정
- 운영 체제 보안 업데이트.
- parquet 파일을
- 2023년 4월 11일
-
SYNC
명령에서 레거시 데이터 원본 서식을 지원합니다. - 리포지토리 외부의 Notebook에서 %autoreload 동작의 문제를 해결합니다.
- 중첩된 JSON 개체의 schema 새 column 검색될 때 자동 로더 schema 진화가 무한 장애 루프로 전환될 수 where 문제가 해결되었습니다.
-
[SPARK-42928]
resolvePersistentFunction
를 동기화합니다. - [SPARK-42936] 자식 집계를 통해 절을 직접 해결할 수 있는 경우의 LCan 문제를 해결합니다.
-
[SPARK-42967] 스테이지가 취소된 후 작업이 시작되는 경우
SparkListenerTaskStart.stageAttemptId
수정. - 운영 체제 보안 업데이트.
-
- 2023년 3월 29일
이제 Databricks SQL에서는 Delta Lake tables의 columns에 대한 기본 values을 table 생성 시 또는 이후에 지정할 수 있습니다. 이후
INSERT
,UPDATE
,DELETE
및MERGE
명령은 명시적DEFAULT
키워드를 사용하여 모든 column기본값을 참조할 수 있습니다. 또한INSERT
할당의 명시적 list이 대상 table보다 적은 columns인 경우, 나머지 columns에 대해 해당 column 기본 values로 대체됩니다 (또는 기본값이 지정되지 않은 경우 NULL).예시:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
이제 자동 로더는
Trigger.AvailableNow
스트림에 대해 하나 이상의 동기 RocksDB 로그 정리를 시작하여 검사점이 빠른 실행 자동 로더 스트림에 대해 정기적으로 정리될 수 get 있는지 확인합니다. 이로 인해 일부 스트림이 종료되기까지 시간이 더 오래 걸릴 수 있지만 스토리지 비용을 절감하고 향후 실행 시 자동 로더 환경을 개선할 수 있습니다.이제
DeltaTable.addFeatureSupport(feature_name)
를 사용하여 델타 table를 수정해서 table 기능을 지원하도록 추가할 수 있습니다.[SPARK-42794] 구조 스트리밍에서 RocksDB 상태 저장소를 획득하기 위해 lockAcquireTimeoutMs을 2분으로 늘림
[SPARK-42521] 사용자 지정 목록이 대상 table보다 적은 columns 목록을 사용하여 INSERT용 NULL 추가
[SPARK-42702][SPARK-42623] 하위 쿼리 및 CTE에서 매개 변수가 있는 쿼리 지원
[SPARK-42668] HDFSStateStoreProvider 중단에서 압축 스트림을 닫는 동안 예외 catch
[SPARK-42403] JsonProtocol은 null JSON 문자열을 처리해야 함
- 2023년 3월 8일
- 고객에게 더 많은 컨텍스트를 제공하기 위해 "구성을 초기화하지 못했습니다"라는 오류 메시지가 개선되었습니다.
- Delta table에 기능을 추가할 때 사용하는 table 속성의 용어가 변경되었습니다. 기본 구문은 이제
'delta.feature.featureName'='supported'
대신'delta.feature.featureName'='enabled'
입니다. 이전 버전과의 호환성을 위해'delta.feature.featureName'='enabled'
사용이 여전히 작동하며 계속 작동합니다. - 이 릴리스부터 프로토콜 관련 Spark 구성을 무시하기 위해 기본 판독기 및 기록기 버전과 기본적으로 지원되는 table 기능을 포함하여 table을(를) 추가하거나 대체할 수 있는 table 속성
delta.ignoreProtocolDefaults
를 만들 수 있습니다. - [SPARK-42070] Mask 함수 인수의 기본값을 -1에서 NULL로 변경
- [SPARK-41793] 유효 소수점에서 범위 절로 정의된 window 프레임의 잘못된 결과
- [SPARK-42484] UnsafeRowUtils 더 나은 오류 메시지
- [SPARK-42516]views 생성 시 항상 세션 시간대 구성을 기록합니다.
- [SPARK-42635] TimestampAdd 식 수정.
- [SPARK-42622]values 대체 기능이 해제됨
- [SPARK-42534] DB2Dialect의 Limit 절 수정
- [SPARK-42121] 기본 제공 table-valued 함수 posexplode, posexplode_outer, json_tuple 및 stack 추가
- [SPARK-42045] ANSI SQL 모드: Round/Bround에서 small/small/significant 정수 오버플로에 대한 오류를 반환해야 함
- 운영 체제 보안 업데이트.
Databricks Runtime 11.3 LTS
Databricks Runtime 11.3 LTS를 참조하세요.
- 2024년 11월 26일
- 기타 버그가 수정되었습니다.
- 2024년 10월 10일
- 기타 버그가 수정되었습니다.
- 2024년 9월 25일
- [SPARK-46601] [CORE] handleStatusMessage에서 로그 오류 수정
- [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 "t에서select 개수(고유 1)" where t가 비어 table 수정
- 기타 버그가 수정되었습니다.
- 2024년 9월 17일
- 운영 체제 보안 업데이트.
- 2024년 8월 29일
- 2024년 8월 14일
- [SPARK-48941][SPARK-48970] 백포트 ML 기록기/판독기 수정
- [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
- [SPARK-48597][SQL] 논리 계획의 텍스트 표현에서 isStreaming 속성에 대한 표식 소개
- [SPARK-48463][ML] StringIndexer에서 중첩된 입력 columns 지원합니다.
- 운영 체제 보안 업데이트.
- 2024년 8월 1일
- [SPARK-48896][SPARK-48909][SPARK-48883] 백포트 spark ML 기록기 수정
- 2024년 8월 1일
- 필요한 보안 패치를 적용하기 위해 Databricks Runtime 11.3 LTS의 Python 버전이 3.9.5에서 3.9.19로 업그레이드됩니다.
- 2024년 7월 11일
- [SPARK-48383][SS] Kafka의 startOffset 옵션에서 일치하지 않는 파티션에 대해 오류 개선
- [SPARK-47070] 하위 쿼리 다시 쓰기 후 잘못된 집계 수정
- 운영 체제 보안 업데이트.
- 2024년 6월 17일
- 운영 체제 보안 업데이트.
- 2024년 5월 21일
- [SPARK-48105][SS] 상태 저장소 언로드와 스냅샷 간의 경합 상태 수정
- 운영 체제 보안 업데이트.
- 2024년 5월 9일
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange가 발생할 때 매개 변수 오류가 누락되는 null groupId 수정
- [SPARK-47973][CORE] SparkContext.stop() 및 이후 SparkContext.assertNotStopped()에 호출 사이트 기록
- [SPARK-44251][SQL]Set 전체 외부의 병합된 join 키에서 null을 올바르게 join
- 운영 체제 보안 업데이트.
- 2024년 4월 25일
- 운영 체제 보안 업데이트.
- 2024년 4월 11일
- 운영 체제 보안 업데이트.
- 2024년 4월 1일
- [SPARK-44252][SS] 새 오류 클래스를 정의하고 DFS에서 로드 상태가 실패하는 경우 where 적용
- [SPARK-47135][SS] Kafka 데이터 손실 예외에 대한 오류 클래스 구현
- “[SPARK-46861][CORE] DAGScheduler에서 교착 상태 방지” 되돌리기
- [SPARK-47200][SS] Foreach 일괄 처리 싱크 사용자 함수 오류에 대한 오류 클래스
- 운영 체제 보안 업데이트.
- 2024년 3월 14일
- [SPARK-47167][SQL] JDBC 익명 관계에 대해 구체적 클래스 추가
- [SPARK-47125][SQL] Univocity가 구문 분석을 트리거하지 않으면 null 반환
- 운영 체제 보안 업데이트.
- 2024년 2월 29일
- MERGE 명령에서 로컬 컬렉션을 원본으로 사용할 때 where 문제를 수정하여 작업 메트릭인 numSourceRows가 올바른 행 수의 두 배를 보고하는 문제를 해결했습니다.
- [SPARK-45582][SS] 출력 모드 스트리밍 집계 내에서 커밋을 호출한 후 저장소 인스턴스가 사용되지 않는지 확인
- 2024년 2월 13일
- [SPARK-46794]의 LogicalRDD 제약 조건에서Remove 하위 쿼리.
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- 운영 체제 보안 업데이트.
- 2023년 12월 25일
- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 유지 관리 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
-
[SPARK-46602] 뷰/table 없는 경우 뷰 생성 시
allowExisting
전파합니다. -
[SPARK-46394] spark를 수정합니다. true로
spark.sql.legacy.keepCommandOutputSchema
set 경우 특수 문자가 있는 스키마에서 .listDatabases() 문제를catalog. -
[SPARK-46538]
ALSModel.transform
모호한 column 참조 문제를 해결합니다. - [SPARK-39440] 이벤트 타임라인을 사용 중지하는 구성을 추가합니다.
- [SPARK-46249] 백그라운드 작업과의 경합을 방지하기 위해 RocksDB 메트릭을 획득하려면 인스턴스 잠금이 필요합니다.
- [SPARK-46132] RPC SSL의 JKS 키에 대한 키 암호를 지원합니다.
- 2023년 12월 14일
- JDBC 또는 ODBC 클라이언트에서 유래하는 getColumns 작업에서 이스케이프된 밑줄이 와일드카드로 잘못 해석되고 처리되는 문제 where가 해결되었습니다.
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
pyarrow-hotfix
를 설치했습니다. - JDBC 또는 ODBC 클라이언트에서 시작된
getColumns
작업에서 이스케이프된 밑줄이 와일드카드로 잘못 해석된 where 문제가 해결되었습니다. - [SPARK-43973] 이제 구조적 스트리밍 UI가 실패한 쿼리를 올바르게 표시합니다.
-
[SPARK-45730]
ReloadingX509TrustManagerSuite
에 대한 시간 제약 조건이 개선되었습니다. -
[SPARK-45544]
TransportContext
에 대한 SSL 지원이 통합되었습니다. -
[SPARK-45859] UDF 개체를
ml.functions
지연으로 만들었습니다. -
[SPARK-43718]
USING
조인의 키에 대한 null 허용 여부가 수정되었습니다. -
[SPARK-44846]
RemoveRedundantAggregates
뒤의 복합 그룹화 식이 제거되었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
- 2023년 11월 14일
- 더 나은 사용률을 달성하기 위해 속도 제한 전에 Delta Lake 스트리밍 쿼리에 대한 Partition 필터가 푸시다운됩니다.
- [SPARK-42205] 작업 및 스테이지 시작 이벤트의 accumulables 로깅을 제거했습니다.
-
[SPARK-45545]
SparkTransportConf
는 생성 시SSLOptions
을 상속합니다. - 되돌리기 [SPARK-33861].
-
[SPARK-45541]
SSLFactory
가 추가되었습니다. - [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
-
[SPARK-45584]
TakeOrderedAndProjectExec
를 사용하여 하위 쿼리 실행 실패를 수정했습니다. -
[SPARK-45430]
FramelessOffsetWindowFunction
는IGNORE NULLS
및offset > rowCount
의 경우 더 이상 실패하지 않습니다. -
[SPARK-45427]
SSLOptions
및SparkTransportConf
에 RPC SSL 설정이 추가되었습니다. - 운영 체제 보안 업데이트.
- 2023년 10월 24일
-
[SPARK-45426]
ReloadingX509TrustManager
에 대한 지원이 추가되었습니다. - 기타 파일.
-
[SPARK-45426]
- 2023년 10월 13일
- Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
-
[SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본이 있는
Trigger.AvailableNow
에 대해 단일 일괄 처리를 실행하는 것으로 대체합니다. -
[SPARK-45084]
StateOperatorProgress
정확하고 적합한 셔플 partition 번호를 사용합니다. - [SPARK-45346] Parquet schema 유추는 이제 schema병합할 때 대/소문자를 구분하는 플래그를 존중합니다.
- 운영 체제 보안 업데이트.
- 2023년 9월 10일
- 기타 파일.
- 2023년 8월 30일
-
[SPARK-44818]
taskThread
이 초기화되기 전에 실행된 보류 중인 작업 중단에 대한 경합이 수정되었습니다. -
[SPARK-44871][11.3-13.0]
percentile_disc
동작이 수정되었습니다. - 운영 체제 보안 업데이트.
-
[SPARK-44818]
- 2023년 8월 15일
-
[SPARK-44485]
TreeNode.generateTreeString
를 최적화합니다. - [SPARK-44504] 유지 관리 작업은 중지 오류가 발생했을 때 로드된 providers를 정리합니다.
-
[SPARK-44464] 첫 번째 column 값으로
Null
을 가진 행을 출력하도록applyInPandasWithStatePythonRunner
를 수정했습니다. - 운영 체제 보안 업데이트.
-
[SPARK-44485]
- 2023년 7월 27일
- 스토리지 위치 경로가 다른 외부 또는 관리되는 스토리지 위치와 겹칠 때 호출되어
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
가 반환되는 wheredbutils.fs.ls()
문제를 해결했습니다. -
[SPARK-44199]
CacheManager
가 더 이상 불필요하게fileIndex
를 새로 고치지 않습니다. - 운영 체제 보안 업데이트.
- 스토리지 위치 경로가 다른 외부 또는 관리되는 스토리지 위치와 겹칠 때 호출되어
- 2023년 7월 24일
- [SPARK-44136] StateManager가 FlatMapGroupsWithStateExec의 드라이버 대신 실행기에서 구체화할 수 get 문제를 해결했습니다.
- 운영 체제 보안 업데이트.
- 2023년 6월 23일
- 운영 체제 보안 업데이트.
- 2023년 6월 15일
-
approx_count_distinct
를 광자화했습니다. - Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
-
[SPARK-43779]
ParseToDate
이 이제 주 스레드에서EvalMode
를 로드합니다. - [SPARK-40862] RewriteCorrelatedScalarSubquery에서 집계되지 않은 하위 쿼리 지원
-
[SPARK-43156][SPARK-43098]
decorrelateInnerQuery
이 비활성화된 스칼라 하위 쿼리 수 버그 테스트를 확장합니다. - [SPARK-43098] 스칼라 하위 쿼리에 group by 절이 있는 경우 정확성 COUNT 버그 수정
- 운영 체제 보안 업데이트.
-
- 2023년 6월 2일
-
failOnUnknownFields
모드의 JSON 파서는DROPMALFORMED
모드에서 레코드를 삭제하고FAILFAST
모드에서 바로 실패합니다. -
SHALLOW CLONE
Iceberg 및 Parquet을 사용하여 증분 업데이트의 성능을 향상시킵니다. - 제공된 schema에 유추된 파티션이 포함되지 않은 경우, 다양한 소스 파일 형식이 일관성을 유지하지 못했던 자동 로더 where의 문제가 해결되었습니다. 이 문제로 인해 partitionschema에서 columns가 누락된 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
- [SPARK-43404] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
-
[SPARK-43527] PySpark에서
catalog.listCatalogs
가 수정되었습니다. -
[SPARK-43413][11.3-13.0]
IN
하위 쿼리ListQuery
null 허용 여부가 수정되었습니다. - [SPARK-43340] 이벤트 로그에서 누락된 스택 추적 필드가 수정되었습니다.
-
Databricks Runtime 10.4 LTS
Databricks Runtime 10.4 LTS를 참조하세요.
- 2024년 11월 26일
- 운영 체제 보안 업데이트.
- 2024년 11월 5일
- 운영 체제 보안 업데이트.
- 2024년 10월 22일
- 운영 체제 보안 업데이트.
- 2024년 10월 10일
- 운영 체제 보안 업데이트.
- 2024년 9월 25일
- [SPARK-46601] [CORE] handleStatusMessage에서 로그 오류 수정
- [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 "t에서select 개수(고유 1)" where t가 비어 table 수정
- 운영 체제 보안 업데이트.
- 2024년 9월 17일
- 운영 체제 보안 업데이트.
- 2024년 8월 29일
- [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
- 2024년 8월 14일
- [SPARK-48597][SQL] 논리 계획의 텍스트 표현에서 isStreaming 속성에 대한 표식 소개
- [SPARK-48941][SPARK-48970] 백포트 ML 기록기/판독기 수정
- [SPARK-48463][ML] StringIndexer에서 중첩된 입력 columns 지원합니다.
- 2024년 8월 1일
- [SPARK-48896][SPARK-48909][SPARK-48883] 백포트 spark ML 기록기 수정
- 운영 체제 보안 업데이트.
- 2024년 7월 11일
- [SPARK-48383][SS] Kafka의 startOffset 옵션에서 일치하지 않는 파티션에 대해 오류 개선
- 운영 체제 보안 업데이트.
- 2024년 6월 17일
- 운영 체제 보안 업데이트.
- 2024년 5월 21일
- [SPARK-48105][SS] 상태 저장소 언로드와 스냅샷 간의 경합 상태 수정
- 운영 체제 보안 업데이트.
- 2024년 5월 9일
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange가 발생할 때 매개 변수 오류가 누락되는 null groupId 수정
- [SPARK-47973][CORE] SparkContext.stop() 및 이후 SparkContext.assertNotStopped()에 호출 사이트 기록
- [SPARK-44251][SQL]Set 전체 외부의 병합된 join 키에서 null을 올바르게 join
- 운영 체제 보안 업데이트.
- 2024년 4월 25일
- 운영 체제 보안 업데이트.
- 2024년 4월 11일
- 운영 체제 보안 업데이트.
- 2024년 4월 1일
- [SPARK-47135][SS] Kafka 데이터 손실 예외에 대한 오류 클래스 구현
- [SPARK-44252][SS] 새 오류 클래스를 정의하고 DFS에서 로딩 상태가 실패할 때의 경우에 where 적용
- [SPARK-47200][SS] Foreach 일괄 처리 싱크 사용자 함수 오류에 대한 오류 클래스
- “[SPARK-46861][CORE] DAGScheduler에서 교착 상태 방지” 되돌리기
- 운영 체제 보안 업데이트.
- 2024년 3월 14일
- [SPARK-47125][SQL] Univocity가 구문 분석을 트리거하지 않으면 null 반환
- 운영 체제 보안 업데이트.
- 2024년 2월 29일
- 해결한 문제 where는 MERGE 명령에서 로컬 컬렉션을 원본으로 사용할 때 작업 메트릭 numSourceRows가 올바른 행 수의 두 배를 보고하는 결과를 초래할 수 있었습니다.
- [SPARK-45582][SS] 출력 모드 스트리밍 집계 내에서 커밋을 호출한 후 저장소 인스턴스가 사용되지 않는지 확인
- 운영 체제 보안 업데이트.
- 2024년 2월 13일
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- 운영 체제 보안 업데이트.
- 2023년 12월 25일
- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 유지 관리 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
-
[SPARK-46538] 모호한 column 참조 문제를
ALSModel.transform
에서 해결합니다. - [SPARK-39440] 이벤트 타임라인을 사용 중지하는 구성을 추가합니다.
- [SPARK-46132] RPC SSL의 JKS 키에 대한 키 암호를 지원합니다.
- 2023년 12월 14일
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
pyarrow-hotfix
를 설치했습니다. -
[SPARK-45544]
TransportContext
에 대한 SSL 지원이 통합되었습니다. -
[SPARK-45859] UDF 개체를
ml.functions
지연으로 만들었습니다. -
[SPARK-43718]
USING
조인의 키에 대한 null 허용 여부가 수정되었습니다. -
[SPARK-45730]
ReloadingX509TrustManagerSuite
에 대한 시간 제약 조건이 개선되었습니다. - [SPARK-42205] 작업 및 스테이지 시작 이벤트의 accumulables 로깅을 제거했습니다.
-
[SPARK-44846]
RemoveRedundantAggregates
뒤의 복합 그룹화 식이 제거되었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
- 2023년 11월 14일
-
[SPARK-45541]
SSLFactory
가 추가되었습니다. -
[SPARK-45545]
SparkTransportConf
는 생성 시SSLOptions
을 상속합니다. -
[SPARK-45427]
SSLOptions
및SparkTransportConf
에 RPC SSL 설정이 추가되었습니다. - [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
-
[SPARK-45584]
TakeOrderedAndProjectExec
를 사용하여 하위 쿼리 실행 실패를 수정했습니다. - 되돌리기 [SPARK-33861].
- 운영 체제 보안 업데이트.
-
[SPARK-45541]
- 2023년 10월 24일
-
[SPARK-45426]
ReloadingX509TrustManager
에 대한 지원이 추가되었습니다. - 운영 체제 보안 업데이트.
-
[SPARK-45426]
- 2023년 10월 13일
-
[SPARK-45084]
StateOperatorProgress
정확하고 적절한 셔플 partition 번호를 사용합니다. -
[SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본이 있는
Trigger.AvailableNow
에 대해 단일 일괄 처리를 실행하는 것으로 대체합니다. - 운영 체제 보안 업데이트.
-
[SPARK-45084]
- 2023년 9월 10일
- 기타 파일.
- 2023년 8월 30일
-
[SPARK-44818]
taskThread
이 초기화되기 전에 실행된 보류 중인 작업 중단에 대한 경합이 수정되었습니다. - 운영 체제 보안 업데이트.
-
[SPARK-44818]
- 2023년 8월 15일
- [SPARK-44504] 유지 관리 작업은 오류로 중지될 때 로드된 providers를 정리합니다.
- [SPARK-43973] 이제 구조적 스트리밍 UI가 실패한 쿼리를 올바르게 표시합니다.
- 운영 체제 보안 업데이트.
- 2023년 6월 23일
- 운영 체제 보안 업데이트.
- 2023년 6월 15일
- Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
- [SPARK-43098] 스칼라 하위 쿼리에 group by 절이 있는 경우 정확성 COUNT 버그 수정
- [SPARK-40862] RewriteCorrelatedScalarSubquery에서 집계되지 않은 하위 쿼리 지원
-
[SPARK-43156][SPARK-43098]
decorrelateInnerQuery
이 비활성화된 스칼라 하위 쿼리 수 테스트를 확장합니다. - 운영 체제 보안 업데이트.
- 2023년 6월 2일
-
failOnUnknownFields
모드의 JSON 파서는DROPMALFORMED
모드에서 레코드를 삭제하고FAILFAST
모드에서 바로 실패합니다. -
UnknownFieldException
를 방지하기 위해 JSON에서 복구된 데이터를 구문 분석하는 문제를 해결했습니다. - 제공된 schema이 유추된 파티션을 포함하지 않는 경우, 자동 로더 where에서 서로 다른 소스 파일 형식이 일치하지 않는 문제가 해결되었습니다. 이 문제로 인해 유추된 partitionschema에서 columns이 누락된 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
- [SPARK-43404] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
-
[SPARK-43413]
IN
하위 쿼리ListQuery
null 허용 여부가 수정되었습니다. - 운영 체제 보안 업데이트.
-
- 2023년 5월 17일
- Parquet 검사는 일괄 처리 크기를 동적으로 조정하여 매우 구조화된 파일을 검색할 때 OOM에 대해 강력해졌습니다. 파일 메타데이터는 일괄 처리 크기를 선제적으로 낮추기 위해 분석되며, 작업 재시도 시 최종 안전망으로 다시 낮아집니다.
-
[SPARK-41520]
AND_OR
트리 패턴을 분할하여AND
과OR
를 구분합니다. -
[SPARK-43190]
ListQuery.childOutput
은 이제 보조 출력과 일치합니다. - 운영 체제 보안 업데이트.
- 2023년 4월 25일
-
[SPARK-42928]
resolvePersistentFunction
를 동기화합니다. - 운영 체제 보안 업데이트.
-
[SPARK-42928]
- 2023년 4월 11일
- Auto Loader where의 schema 진화가 중첩된 JSON 개체의 schema에서 새 column가 감지될 때 무한 실패 루프로 들어갈 수 있는 문제를 해결했습니다.
-
[SPARK-42937]
PlanSubqueries
이 이제InSubqueryExec#shouldBroadcast
을 true로 설정합니다. - [SPARK-42967] 스테이지가 취소된 후 작업이 시작될 때 SparkListenerTaskStart.stageAttemptId를 수정합니다.
- 2023년 3월 29일
- [SPARK-42668] HDFSStateStoreProvider 중단에서 압축 스트림을 닫는 동안 예외 catch
- [SPARK-42635] … 수정
- 운영 체제 보안 업데이트.
- 2023년 3월 14일
- [SPARK-41162] 집계를 사용하여 자체join 대한 반join 수정
- [SPARK-33206] 작은 인덱스 파일에 대한 순서 섞기 인덱스 캐시 가중치 계산 수정
-
[SPARK-42484]
UnsafeRowUtils
오류 메시지 개선 - 기타 파일.
- 2023년 2월 28일
- yyyy-MM-dd 날짜 형식에 대해 생성된 column가 지원됩니다. 이 변경은 생성된 columns에서 yyyy-MM-dd 형식의 date_format에 대한 partition 가지치기를 지원합니다.
- 이제 사용자는 Databricks Runtime 9.1 LTS 이상을 사용하여 리더 버전 3 및 라이터 버전 7이 필요한 특정 Delta tables를 읽고 쓸 수 있습니다. 성공하려면 tables' 프로토콜에 나열된 table 기능이 현재 버전의 Databricks Runtime에서 지원되어야 합니다.
- yyyy-MM-dd 형식 날짜를 위한 column 지원이 생성되었습니다. 이 변경은 생성된 columns의 날짜 형식 yyyy-MM-dd에 대한 partition 가지치기를 지원합니다.
- 운영 체제 보안 업데이트.
- 2023년 2월 16일
- [SPARK-30220] 필터 노드 외부의 Exists/In 하위 쿼리 사용 설정
- 운영 체제 보안 업데이트.
- 2023년 1월 31일
- 이제 Table 유형의 JDBC tables는 기본 설정으로 EXTERNAL입니다.
- 2023년 1월 18일
- azure Synapse 커넥터는 column 이름에 공백 또는 세미콜론과 같은 유효한 문자가 없는 경우 보다 설명적인 오류 메시지를 반환합니다. 이러한 경우 다음 메시지가 반환됩니다.
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
- [SPARK-38277] RocksDB 상태 저장소 커밋 후 쓰기 일괄 처리 지우기
- [SPARK-41199] DSv1 스트리밍 원본 및 DSv2 스트리밍 원본이 공동으로 사용되는 경우 메트릭 문제 해결
- [SPARK-41198] CTE 및 DSv1 스트리밍 원본을 having 스트리밍 쿼리에서 메트릭을 수정합니다.
- [SPARK-41339] 단순히 지우는 대신 RocksDB 쓰기 일괄 처리를 닫고 다시 생성합니다.
- [SPARK-41732] SessionWindowing 규칙에 트리 패턴 기반 정리를 적용합니다.
- 운영 체제 보안 업데이트.
- azure Synapse 커넥터는 column 이름에 공백 또는 세미콜론과 같은 유효한 문자가 없는 경우 보다 설명적인 오류 메시지를 반환합니다. 이러한 경우 다음 메시지가 반환됩니다.
- 2022년 11월 29일
- 사용자는 Redshift 커넥터를 사용하여 데이터를 작성할 때 선행 및 후행 공백의 동작을 구성할 수 있습니다. 공백 처리를 제어하기 위해 다음 옵션이 추가되었습니다.
-
csvignoreleadingwhitespace
true
set 때tempformat
CSV
또는CSV GZIP
set 경우 쓰기 중에 values 선행 공백을 제거합니다. 구성이 set에서false
일 때 공백이 유지됩니다. 기본적으로 값은true
입니다. -
csvignoretrailingwhitespace
, set이true
에 있을 때, 쓰기 중에tempformat
이 set에서CSV
또는CSV GZIP
일 경우 values의 후행 공백을 제거합니다. 설정이 set부터false
까지일 때 공백이 유지됩니다. 기본적으로 값은true
입니다.
-
- 모든 columns 문자열(
cloudFiles.inferColumnTypes
set 또는false
set 아님)으로 남아 있고 JSON에 중첩된 개체가 포함된 경우 자동 로더에서 JSON 구문 분석과 관련된 문제를 해결했습니다. - 운영 체제 보안 업데이트.
- 사용자는 Redshift 커넥터를 사용하여 데이터를 작성할 때 선행 및 후행 공백의 동작을 구성할 수 있습니다. 공백 처리를 제어하기 위해 다음 옵션이 추가되었습니다.
- 2022년 11월 15일
- Apache commons-text를 1.10.0으로 업그레이드했습니다.
-
[SPARK-40646] 구조체, 맵 및 배열에 대한 JSON 구문 분석이 수정되었으므로 레코드의 일부가 schema일치하지 않는 경우 null을 반환하는 대신 나머지 레코드를 올바르게 구문 분석할 수 있습니다. 향상된 동작을 활성화하려면 set
spark.sql.json.enablePartialResults
에서true
까지. 플래그는 원래 동작을 유지하기 위해 기본적으로 비활성화됩니다. -
[SPARK-40292] 배열이 중첩된 구조체에서 참조될 때
arrays_zip
함수의 column 이름 수정 - 운영 체제 보안 업데이트.
- 2022년 11월 1일
- Delta
사용자 정의 있지만 해당 데이터 피드 변경 데이터 피드가 꺼져 있는 경우 문제가 해결되었습니다. 실행할 때 해당 데이터가 NULL 잘못 채워집니다. -
allowOverwrites
사용하도록 설정된 경우 파일이 동일한 마이크로 배치에서 복제될 수 있는 where 자동 로더의 문제가 수정되었습니다. - [SPARK-40697] 외부 데이터 파일을 커버하는 읽기 쪽 char 패딩 추가
- [SPARK-40596] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
- 운영 체제 보안 업데이트.
- Delta
- 2022년 10월 18일
- 운영 체제 보안 업데이트.
- 2022년 10월 5일
-
[SPARK-40468]
_corrupt_record
을 선택한 경우 CSV에서 column 가지치기를 수정합니다. - 운영 체제 보안 업데이트.
-
[SPARK-40468]
- 2022년 9월 22일
- 사용자는 spark.conf를 set 수 있습니다.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
)를 사용하여 ADLS Gen2에서 자동 로더에 대한 기본 제공 목록을 다시 사용하도록 설정합니다. 기본 제공 목록은 이전에 성능 문제로 인해 꺼졌지만 고객의 스토리지 비용이 증가했을 수 있습니다. - [SPARK-40315] ArrayBasedMapData의 리터럴에 해시코드() 추가
- [SPARK-40213] 라틴어-1 문자에 대한 ASCII 값 변환 지원
- [SPARK-40380] 계획에 직렬화할 수 없는 리터럴이 포함되지 않도록 InvokeLike의 상수 폴딩 수정
- [SPARK-38404] 중첩된 CTE가 외부 CTE를 참조할 때 CTE 해상도 개선
- [SPARK-40089] 일부 10진수 형식에 대한 정렬 수정
- [SPARK-39887] RemoveRedundantAliases는 프로젝션 노드의 출력을 고유하게 만드는 별칭을 유지해야 함
- 사용자는 spark.conf를 set 수 있습니다.set(
- 2022년 9월 6일
- [SPARK-40235] Executor.updateDependencies()에서 동기화되는 대신 인터럽트 가능한 잠금을 사용합니다.
- [SPARK-40218] GROUPING SETS는 그룹 설정을 columns유지해야 합니다.
- [SPARK-39976] ArrayIntersect에서 왼쪽 식의 null을 올바르게 처리해야 합니다.
-
[SPARK-40053] Python 런타임 환경이 필요한 동적 취소 사례에
assume
을 추가합니다. - [SPARK-35542] 수정: parameters splitsArray, inputCols 및 outputCols를 저장한 후에 여러 columns에 대해 만든 버킷화 도구를 로드할 수 없습니다.
- [SPARK-40079] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사를 추가합니다.
- 2022년 8월 24일
- [SPARK-39983] 드라이버에서 직렬화되지 않은 브로드캐스트 관계를 캐시하지 않습니다.
- [SPARK-39775] Avro 스키마를 구문 분석할 때 기본 values 유효성 검사를 사용하지 않도록 설정합니다.
- [SPARK-39962] 그룹 특성이 비어 있는 경우 프로젝션 적용
- [SPARK-37643] charVarcharAsString이 true이면 for char datatype 조건자 쿼리에서 rpadding 규칙을 건너뛰어야 합니다.
- 운영 체제 보안 업데이트.
- 2022년 8월 9일
- [SPARK-39847] 호출자 스레드가 중단된 경우 RocksDBLoader.loadLibrary()에서 경합 상태 수정
- [SPARK-39731] CORRECTED 시간 파서 정책을 사용하여 날짜를 “yyyyMMdd” 형식으로 구문 분석할 때 CSV 및 JSON 데이터 원본의 문제 해결
- 운영 체제 보안 업데이트.
- 2022년 7월 27일
- [SPARK-39625] Dataset.as(StructType)를 추가합니다.
-
[SPARK-39689] CSV 데이터 원본에서 2자
lineSep
를 지원합니다. - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded는 스레드로부터 안전해야 합니다.
- [SPARK-39570] 인라인 table 별칭이 있는 식을 허용해야 합니다.
- [SPARK-39702] 공유 byteRawChannel을 사용하여 TransportCipher$EncryptedMessage의 메모리 오버헤드 줄입니다.
- [SPARK-39575] AvroDeserializer에서 ByteBuffer#get 후에 ByteBuffer#rewind를 추가합니다.
- [SPARK-39476] Long에서 Float/Double 또는 Integer에서 Float로 캐스팅할 때 래프 해제 캐스트 optimize 사용하지 않도록 설정합니다.
- [SPARK-38868] 외부 조인을 최적화할 때 필터 조건자에서 예외를 전파하지 않습니다.
- 운영 체제 보안 업데이트.
- 2022년 7월 20일
- 원본이 비결정적일 때 Delta MERGE 작업 결과를 일관되게 만듭니다.
- [SPARK-39355] Single column quoted를 사용하여 UnresolvedAttribute를 생성합니다.
- [SPARK-39548] CreateView 명령에서 window 절 쿼리가 있는 경우 잘못된 window 정의를 찾을 수 없는 문제가 발생합니다.
- [SPARK-39419] 비교자가 null을 반환할 때 예외를 throw하도록 ArraySort를 수정합니다.
- Azure에서 디렉터리 목록에 대해 자동 로더가 기본 제공 클라우드 API를 사용하는 것을 비활성화했습니다.
- 운영 체제 보안 업데이트.
- 2022년 7월 5일
- [SPARK-39376] NATURAL/USING JOIN 하위 쿼리 별칭의 별 확장에서 중복된 columns를 제거합니다.
- 운영 체제 보안 업데이트.
- 2022년 6월 15일
- [SPARK-39283] TaskMemoryManager와 UnsafeExternalSorter.SpillableIterator 간의 교착 상태를 수정합니다.
- [SPARK-39285] Spark는 파일을 읽을 때 필드 이름을 확인하지 않아야 합니다.
- [SPARK-34096] null을 무시하는 nth_value의 성능을 향상시킵니다. offsetwindow
-
[SPARK-36718] CollapseProject에서
isExtractOnly
확인을 수정합니다.
- 2022년 6월 2일
- [SPARK-39093] 연월 간격 또는 일시 간격을 정수로 나눌 때 코드 생성 컴파일 오류를 방지합니다.
- [SPARK-38990] date_trunc/trunc 형식을 바인딩된 참조로 평가할 때 NullPointerException을 방지합니다.
- 운영 체제 보안 업데이트.
- 2022년 5월 18일
- 자동 로더에서 잠재적인 기본 제공 메모리 누수를 수정합니다.
- [SPARK-38918] 중첩된 column 가지치기는 현재 관계에 속하지 않는 속성을 걸러내야 합니다.
- [SPARK-37593] G1GC 및 ON_HEAP이 사용되는 경우 LONG_ARRAY_OFFSET으로 기본 페이지 크기를 축소합니다.
- [SPARK-39084] 작업 완료 시 반복기를 중지하도록 TaskContext를 사용하여 df.rdd.isEmpty()를 수정합니다.
- [SPARK-32268] injectBloomFilter에 ColumnPruning을 추가합니다.
- [SPARK-38974]list 함수에서 지정된 데이터베이스 이름으로 등록된 함수를 필터링합니다.
- [SPARK-38931] 첫 번째 검사점에서 알 수 없는 수의 키를 사용하여 RocksDBFileManager에 대한 루트 dfs 디렉터리를 만듭니다.
- 운영 체제 보안 업데이트.
- 2022년 4월 19일
- Java AWS SDK를 버전 1.11.655에서 1.12.1899로 업그레이드했습니다.
- 일괄 스트리밍 작업에서 Notebook 범위 라이브러리가 작동하지 않는 문제를 해결했습니다.
- [SPARK-38616] Catalyst TreeNode에서 SQL 쿼리 텍스트 추적
- 운영 체제 보안 업데이트.
- 2022년 4월 6일
- 이제 이 릴리스에서 다음 Spark SQL 함수를 사용할 수 있습니다.
-
timestampadd()
및dateadd()
: 타임스탬프 식에 지정된 단위의 시간 기간을 추가합니다. -
timestampdiff()
및datediff()
: 지정된 단위에서 두 타임스탬프 식 사이의 시간 차이를 계산합니다.
-
- Parquet-MR이 1.12.2로 업그레이드되었습니다.
- parquet 파일의 광범위한 스키마에 대한 지원 개선
- [SPARK-38631] Utils.unpack에서 un-tarring에 Java 기반 구현을 사용합니다.
-
[SPARK-38509][SPARK-38481] 세 가지
timestmapadd/diff
변경 내용 Cherry-pick. - [SPARK-38523] CSV의 손상된 레코드 column 참조하는 수정입니다.
-
[SPARK-38237]
ClusteredDistribution
의 전체 클러스터링 키 요구를 허용합니다. - [SPARK-38437] 데이터 원본에서 datetime의 Lenient serialization합니다.
- [SPARK-38180] 상관 관계가 있는 같음 조건자에서 안전한 업캐스트 식을 허용합니다.
- [SPARK-38155] 지원되지 않는 조건자를 사용하여 횡적 하위 쿼리에서 고유 집계를 허용 안 합니다.
- 운영 체제 보안 업데이트.
- 이제 이 릴리스에서 다음 Spark SQL 함수를 사용할 수 있습니다.
Databricks Runtime 9.1 LTS
Databricks Runtime 9.1 LTS를 참조하세요.
- 2024년 11월 26일
- 운영 체제 보안 업데이트.
- 2024년 11월 5일
- 운영 체제 보안 업데이트.
- 2024년 10월 22일
- 운영 체제 보안 업데이트.
- 2024년 10월 10일
- 운영 체제 보안 업데이트.
- 2024년 9월 25일
- [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 "t에서select 개수(고유 1)" where t가 비어 table 수정
- 운영 체제 보안 업데이트.
- 2024년 9월 6일
- 운영 체제 보안 업데이트.
- 2024년 8월 29일
- [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
- 2024년 8월 14일
- 2024년 8월 1일
- 운영 체제 보안 업데이트.
- 2024년 7월 11일
- 운영 체제 보안 업데이트.
- 2024년 6월 17일
- 운영 체제 보안 업데이트.
- 2024년 5월 21일
- [SPARK-48105][SS] 상태 저장소 언로드와 스냅샷 간의 경합 상태 수정
- 운영 체제 보안 업데이트.
- 2024년 5월 9일
- [SPARK-47973][CORE] SparkContext.stop() 및 이후 SparkContext.assertNotStopped()에 호출 사이트 기록
- [SPARK-44251][SQL]Set 전체 외부의 병합된 join 키에서 null을 올바르게 join
- 운영 체제 보안 업데이트.
- 2024년 4월 25일
- 기타 버그가 수정되었습니다.
- 2024년 4월 11일
- 운영 체제 보안 업데이트.
- 2024년 4월 1일
- “[SPARK-46861][CORE] DAGScheduler에서 교착 상태 방지” 되돌리기
- 운영 체제 보안 업데이트.
- 2024년 3월 14일
- 운영 체제 보안 업데이트.
- 2024년 2월 29일
- MERGE 명령에서 로컬 컬렉션을 원본으로 사용하는 where 문제를 수정하여 작업 메트릭 numSourceRows가 올바른 행 수의 두 배를 보고하는 문제를 해결했습니다.
- 운영 체제 보안 업데이트.
- 2024년 2월 13일
- [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
- 운영 체제 보안 업데이트.
- 2024년 1월 31일
- 운영 체제 보안 업데이트.
- 2023년 12월 25일
- TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 유지 관리 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
- [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
- [SPARK-39440] 이벤트 타임라인을 사용 중지하는 구성을 추가합니다.
- [SPARK-46132] RPC SSL의 JKS 키에 대한 키 암호를 지원합니다.
- 2023년 12월 14일
- 운영 체제 보안 업데이트.
- 2023년 11월 29일
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
pyarrow-hotfix
를 설치했습니다. -
[SPARK-45859] UDF 개체를
ml.functions
지연으로 만들었습니다. -
[SPARK-45544]
TransportContext
에 대한 SSL 지원이 통합되었습니다. -
[SPARK-45730]
ReloadingX509TrustManagerSuite
에 대한 시간 제약 조건이 개선되었습니다. - 운영 체제 보안 업데이트.
- PyArrow RCE 취약성을 수정하기 위해 새 패키지
- 2023년 11월 14일
-
[SPARK-45545]
SparkTransportConf
는 생성 시SSLOptions
을 상속합니다. - [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
-
[SPARK-45427]
SSLOptions
및SparkTransportConf
에 RPC SSL 설정이 추가되었습니다. -
[SPARK-45584]
TakeOrderedAndProjectExec
를 사용하여 하위 쿼리 실행 실패를 수정했습니다. -
[SPARK-45541]
SSLFactory
가 추가되었습니다. - [SPARK-42205] 작업 및 스테이지 시작 이벤트의 accumulables 로깅을 제거했습니다.
- 운영 체제 보안 업데이트.
-
[SPARK-45545]
- 2023년 10월 24일
-
[SPARK-45426]
ReloadingX509TrustManager
에 대한 지원이 추가되었습니다. - 운영 체제 보안 업데이트.
-
[SPARK-45426]
- 2023년 10월 13일
- 운영 체제 보안 업데이트.
- 2023년 9월 10일
- 기타 파일.
- 2023년 8월 30일
- 운영 체제 보안 업데이트.
- 2023년 8월 15일
- 운영 체제 보안 업데이트.
- 2023년 6월 23일
- Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
- 운영 체제 보안 업데이트.
- 2023년 6월 15일
- [SPARK-43098] 스칼라 하위 쿼리에 group by 절이 있는 경우 정확성 COUNT 버그를 수정합니다.
-
[SPARK-43156][SPARK-43098]
decorrelateInnerQuery
이 비활성화된 스칼라 하위 쿼리 수 버그 테스트를 확장합니다. - [SPARK-40862] RewriteCorrelatedScalarSubquery에서 집계되지 않은 하위 쿼리를 지원합니다.
- 운영 체제 보안 업데이트.
- 2023년 6월 2일
-
failOnUnknownFields
모드의 JSON 파서는DROPMALFORMED
모드에서 레코드를 삭제하고FAILFAST
모드에서 바로 실패합니다. -
UnknownFieldException
를 방지하기 위해 JSON에서 복구된 데이터를 구문 분석하는 문제를 해결했습니다. - 제공된 schema에 유추 파티션이 포함되지 않았을 때, 다른 소스 파일 형식이 일관되지 않았던 Auto Loader where의 문제가 해결되었습니다. 이 문제는 유추된 partitionschema에서 columns가 누락된 파일을 읽을 때 예기치 않은 오류를 발생시킬 수 있습니다.
-
[SPARK-37520]
startswith()
및endswith()
문자열 함수 추가 -
[SPARK-43413]
IN
하위 쿼리ListQuery
null 허용 여부가 수정되었습니다. - 운영 체제 보안 업데이트.
-
- 2023년 5월 17일
- 운영 체제 보안 업데이트.
- 2023년 4월 25일
- 운영 체제 보안 업데이트.
- 2023년 4월 11일
- 중첩된 JSON 개체의 schema 새 column 검색될 때 자동 로더 schema 진화가 무한 장애 루프로 전환될 수 where 문제가 해결되었습니다.
- [SPARK-42967] 스테이지가 취소된 후 작업이 시작될 때 SparkListenerTaskStart.stageAttemptId를 수정합니다.
- 2023년 3월 29일
- 운영 체제 보안 업데이트.
- 2023년 3월 14일
-
[SPARK-42484]
UnsafeRowUtils
에 대한 오류 메시지가 개선되었습니다. - 기타 파일.
-
[SPARK-42484]
- 2023년 2월 28일
- 이제 사용자는 Databricks Runtime 9.1 LTS 이상에서 Reader 버전 3 및 Writer 버전 7이 필요한 특정 Delta tables을 읽고 쓸 수 있습니다. 성공하려면 tables' 프로토콜에 나열된 table 기능이 현재 버전의 Databricks Runtime에서 지원되어야 합니다.
- 운영 체제 보안 업데이트.
- 2023년 2월 16일
- 운영 체제 보안 업데이트.
- 2023년 1월 31일
- 이제 Table 유형의 JDBC tables 기본적으로 EXTERNAL입니다.
- 2023년 1월 18일
- 운영 체제 보안 업데이트.
- 2022년 11월 29일
- 모든 columns가 문자열로 남아 있고,
cloudFiles.inferColumnTypes
이 set나 set가 아닌false
일 때, JSON에 중첩된 객체가 포함된 경우 자동 로더의 JSON 구문 분석 문제를 수정했습니다. - 운영 체제 보안 업데이트.
- 모든 columns가 문자열로 남아 있고,
- 2022년 11월 15일
- Apache commons-text를 1.10.0으로 업그레이드했습니다.
- 운영 체제 보안 업데이트.
- 기타 파일.
- 2022년 11월 1일
- Delta
사용자 정의 있지만 해당 데이터 피드 변경 데이터 피드가 꺼져 있는 경우 문제가 해결되었습니다. 실행할 때 해당 데이터가 NULL 잘못 채워집니다. -
allowOverwrites
이 사용하도록 설정된 경우 동일한 마이크로 배치에서 파일이 중복될 수 있는 where 자동 로더 문제를 해결했습니다. - [SPARK-40596] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
- 운영 체제 보안 업데이트.
- Delta
- 2022년 10월 18일
- 운영 체제 보안 업데이트.
- 2022년 10월 5일
- 기타 파일.
- 운영 체제 보안 업데이트.
- 2022년 9월 22일
- ADLS Gen2에서 Auto Loader의 기본 기능 목록을 다시 활성화하려면 사용자는 spark.conf에서 set을 설정하고set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")을 입력해야 합니다. 기본 제공 목록은 이전에 성능 문제로 인해 꺼졌지만 고객의 스토리지 비용이 증가했을 수 있습니다.
- [SPARK-40315] ArrayBasedMapData의 리터럴에 해시코드() 추가
- [SPARK-40089] 일부 10진수 형식에 대한 정렬 수정
- [SPARK-39887] RemoveRedundantAliases는 프로젝션 노드의 출력을 고유하게 만드는 별칭을 유지해야 함
- 2022년 9월 6일
- [SPARK-40235] Executor.updateDependencies()에서 동기화되는 대신 인터럽트 가능한 잠금 사용
- [SPARK-35542] 수정: parameters splitsArray, inputCols 및 outputCols를 저장한 후 여러 columns 대해 만든 버킷타이저를 로드할 수 없습니다.
- [SPARK-40079] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사 추가
- 2022년 8월 24일
-
[SPARK-39666] UnsafeProjection.create를 사용하여 ExpressionEncoder에
spark.sql.codegen.factoryMode
적용 - [SPARK-39962] 그룹 특성이 비어 있는 경우 프로젝션 적용
- 운영 체제 보안 업데이트.
-
[SPARK-39666] UnsafeProjection.create를 사용하여 ExpressionEncoder에
- 2022년 8월 9일
- 운영 체제 보안 업데이트.
- 2022년 7월 27일
- 원본이 비결정적일 때 Delta MERGE 작업 결과를 일관되게 만듭니다.
-
[SPARK-39689] CSV 데이터 원본에서 2자
lineSep
지원 -
[SPARK-39575]
ByteBuffer#rewind
에ByteBuffer#get
후에AvroDeserializer
를 추가했습니다. - [SPARK-37392] 촉매 최적화 프로그램의 성능 오류를 수정했습니다.
- 운영 체제 보안 업데이트.
- 2022년 7월 13일
-
[SPARK-39419] 비교자가 null을 반환할 때
ArraySort
가 예외를 throw - Azure에서 디렉터리 목록에 대해 자동 로더가 기본 제공 클라우드 API를 사용하는 것을 비활성화했습니다.
- 운영 체제 보안 업데이트.
-
[SPARK-39419] 비교자가 null을 반환할 때
- 2022년 7월 5일
- 운영 체제 보안 업데이트.
- 기타 파일.
- 2022년 6월 15일
-
[SPARK-39283]
TaskMemoryManager
및UnsafeExternalSorter.SpillableIterator
사이의 교착 상태를 수정했습니다.
-
[SPARK-39283]
- 2022년 6월 2일
-
[SPARK-34554]
copy()
에서ColumnarMap
메서드를 구현합니다. - 운영 체제 보안 업데이트.
-
[SPARK-34554]
- 2022년 5월 18일
- 자동 로더에서 잠재적인 기본 제공 메모리 누수를 수정했습니다.
- AWS SDK 버전을 1.11.655에서 1.11.678로 업그레이드합니다.
- [SPARK-38918] 중첩된 column 필터링은 현재 관계에 속하지 않는 속성을 걸러내야 합니다.
-
[SPARK-39084] 작업 완료 시 반복기를 중지하는
df.rdd.isEmpty()
을 사용하여TaskContext
수정 - 운영 체제 보안 업데이트.
- 2022년 4월 19일
- 운영 체제 보안 업데이트.
- 기타 파일.
- 2022년 4월 6일
- [SPARK-38631] Utils.unpack에서 un-tarring에 Java 기반 구현을 사용합니다.
- 운영 체제 보안 업데이트.
- 2022년 3월 22일
- 현재 높은 동시성 클러스터에서 table 접근 제어 또는 자격 증명 패스스루가 활성화된 경우, Notebook의 현재 작업 디렉터리가 사용자의 홈 디렉터리로 변경되었습니다. 이전에는 Active Directory가
/databricks/driver
였습니다. - [SPARK-38437] 데이터 원본에서 datetime의 Lenient serialization
- [SPARK-38180] 상관 관계가 있는 같음 조건자에서 안전한 업캐스트 식 허용
- [SPARK-38155] 지원되지 않는 조건자를 사용하여 횡적 하위 쿼리에서 고유 집계 허용 안 함
- [SPARK-27442] parquet에서 데이터를 읽고 쓸 때 확인 필드를 제거했습니다.
- 현재 높은 동시성 클러스터에서 table 접근 제어 또는 자격 증명 패스스루가 활성화된 경우, Notebook의 현재 작업 디렉터리가 사용자의 홈 디렉터리로 변경되었습니다. 이전에는 Active Directory가
- 2022년 3월 14일
- [SPARK-38236] 생성/변경 table에서 지정된 절대 파일 경로는 상대 파일 경로로 처리됩니다.
-
[SPARK-34069] 로컬 속성
SPARK_JOB_INTERRUPT_ON_CANCEL
true로 set 경우 작업 스레드를 중단합니다.
- 2022년 2월 23일
- 2022년 2월 8일
- [SPARK-27442] parquet에서 데이터를 읽고 쓸 때 확인 필드를 제거했습니다.
- 운영 체제 보안 업데이트.
- 2022년 2월 1일
- 운영 체제 보안 업데이트.
- 2022년 1월 26일
- Delta tables의 동시 트랜잭션이 특정 드문 조건에서 직렬화할 수 없는 순서로 커밋될 수 있는 문제가 where 수정되었습니다.
- ANSI SQL 언어가 활성화된 경우
OPTIMIZE
명령이 실패할 수 있는 문제가 where에서 수정되었습니다.
- 2022년 1월 19일
- 사소한 수정 및 보안 개선 사항.
- 운영 체제 보안 업데이트.
- 2021년 11월 4일
-
ArrayIndexOutOfBoundsException
를 사용하여 구조적 스트리밍 스트림이 실패할 수 있는 문제를 해결했습니다. -
java.io.IOException: No FileSystem for scheme
과 같은 IOException으로 쿼리 실패를 일으키거나sparkContext.hadoopConfiguration
에 대한 수정 사항이 쿼리에 적용되지 않을 수 있는 경합 상태가 수정되었습니다. - Delta 공유용 Apache Spark 커넥터가 0.2.0으로 업그레이드되었습니다.
-
- 2021년 10월 20일
- BigQuery 커넥터가 0.18.1에서 0.22.2로 업그레이드되었습니다. 이렇게 하면 BigNumeric 형식에 대한 지원이 추가됩니다.