다음을 통해 공유


Databricks Runtime 유지 관리 업데이트(보관됨)

이 보관된 페이지에는 더 이상 지원되지 않는 Databricks Runtime 릴리스에 대해 발행된 유지 관리 업데이트가 나열됩니다. 기존 클러스터에 유지 관리 업데이트를 추가하려면 클러스터를 다시 시작합니다.

Important

이 설명서는 사용 중지되었으며 업데이트되지 않을 수 있습니다. 이 콘텐츠에 언급된 제품, 서비스 또는 기술은 지원 종료되었습니다. Databricks Runtime 릴리스 정보 버전 및 호환성을 참조하세요.

참고 항목

이 문서에는 Azure Databricks에서 사용하지 않는 용어인 허용 목록에 대한 참조가 포함되어 있습니다. 소프트웨어에서 용어가 제거되면 이 문서에서 해당 용어가 제거됩니다.

Databricks Runtime releases

릴리스별 유지 관리 업데이트:

지원되는 Databricks Runtime 버전에 대한 유지 관리 업데이트는 Databricks Runtime 유지 관리 업데이트를 참조하세요.

Databricks Runtime 15.1

Databricks Runtime 15.1(EoS)을 참조하세요.

  • 2024년 10월 22일
    • [SPARK-49863][SQL] 중첩된 구조체의 null 허용 가능성을 유지하기 위해 NormalizeFloatingNumbers 수정
    • [SPARK-46632][SQL] 해당하는 삼항 식에 서로 다른 자식이 있는 경우 하위 식 제거 수정
    • [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
    • [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
    • [SPARK-49829] 스트림 스트림 조인에서 상태 저장소에 입력을 추가하는 최적화 수정(정확성 수정)
    • 운영 체제 보안 업데이트.
  • 2024년 10월 10일
    • [SPARK-49688][CONNECT] 인터럽트와 실행 계획 간의 데이터 경합 수정
    • [SPARK-49743][SQL] GetArrayStructFields를 정리할 때 OptimizeCsvJsonExpr은 스키마 필드를 변경하지 않아야 합니다.
    • [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] FlatMapGroupsWithState 사용자 함수 오류에 대한 분류 오류 클래스
    • 운영 체제 보안 업데이트.
  • 2024년 9월 25일
    • [SPARK-49628][SQL] ConstantFolding은 평가하기 전에 상태 저장 식을 복사해야 합니다.
    • [SPARK-48719][SQL] 첫 번째 매개 변수가 null일 때 RegrSlope &RegrIntercept의 계산 버그 수정
    • [SPARK-49492][CONNECT] 비활성 ExecutionHolder에서 다시 연결 시도됨
    • [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 t가 빈 테이블인 경우 "select count(distinct 1 from t") 수정
    • [SPARK-49458][CONNECT][PYTHON] ReattachExecute를 통해 서버 쪽 세션 ID 제공
    • 운영 체제 보안 업데이트.
  • 2024년 9월 17일
    • [SPARK-49336][CONNECT] protobuf 메시지를 잘리면 중첩 수준 제한
    • [SPARK-49526][CONNECT] ArtifactManager에서 Windows 스타일 경로 지원
    • [SPARK-49409][CONNECT] CONNECT_SESSION_PLAN_CACHE_SIZE 기본값 조정
    • [SPARK-43242][CORE] 순서 섞기 손상 진단에서 throw 'BlockId의 예기치 않은 유형'을 수정합니다.
    • [SPARK-49366][CONNECT] 데이터 프레임 열 확인에서 Union 노드를 리프로 처리
  • 2024년 8월 29일
    • [SPARK-49263][CONNECT] Spark Connect Python 클라이언트: 부울 DataFrame 판독기 옵션을 일관되게 처리
    • [SPARK-49056][SQL] ErrorClassesJsonReader가 null을 제대로 처리할 수 없음
    • [SPARK-48862][PYTHON] [CONNECT] INFO 수준을 사용할 수 없는 경우 _proto_to_string 호출 방지
    • [SPARK-49146][SS] 추가 모드 스트리밍 쿼리에서 누락된 워터마크와 관련된 어설션 오류를 오류 프레임워크로 이동
  • 2024년 8월 14일
    • [SPARK-48941][SPARK-48970] 백포트 ML 기록기/판독기 수정
    • [SPARK-48050][SS] 쿼리 시작 시 논리 계획 기록
    • [SPARK-48706][PYTHON] 상위 순서 함수의 Python UDF는 내부 오류를 발생시키지 않습니다.
    • [SPARK-48597][SQL] 논리 계획의 텍스트 표현에서 isStreaming 속성에 대한 표식 소개
    • [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
    • [SPARK-49047][PYTHON] [CONNECT] 로깅을 위해 메시지 자르기
    • [SPARK-48740][SQL] 누락된 창 사양 오류 조기 포착
  • 2024년 8월 1일
  • 2024년 7월 11일
    • (동작 변경) 이제 원본 테이블을 덮어쓰면 Delta 테이블 원본에 대해 캐시된 DataFrame이 무효화됩니다. 이 변경은 이제 Delta 테이블의 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다. DataFrame의 수명 동안 테이블 상태를 유지하는 데 .checkpoint()를 사용합니다.
    • Snowflake JDBC 드라이버가 버전 3.16.1로 업데이트되었습니다.
    • 이 릴리스에는 Databricks 컨테이너 서비스에서 실행할 때 Spark UI 환경 탭이 올바르게 표시되지 않는 문제에 대한 수정 사항이 포함되어 있습니다.
    • Notebook 및 작업에 대한 서버리스 컴퓨팅에서 ANSI SQL 모드는 기본값으로 사용하도록 설정됩니다. 지원되는 Spark 구성 매개 변수를 참조하세요.
    • 데이터를 읽을 때 잘못된 파티션을 무시하려면 Parquet, ORC, CSV 또는 JSON과 같은 파일 기반 데이터 원본에서 ignoreInvalidPartitionPaths 데이터 원본 옵션을 true로 설정할 수 있습니다. 예: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`. SQL 구성 spark.sql.files.ignoreInvalidPartitionPaths를 사용할 수도 있습니다. 그러나 데이터 원본 옵션이 SQL 구성보다 우선 순위를 갖습니다. 기본값으로 이것은 false로 설정되어 있습니다.
    • [SPARK-48383][SS] Kafka의 startOffset 옵션에서 일치하지 않는 파티션에 대해 오류 개선
    • [SPARK-48481][SQL] [SS] 스트리밍 데이터 세트에 OptimizeOneRowPlan을 적용하지 마세요.
    • [SPARK-48100][SQL] 스키마에서 선택되지 않은 중첩된 구조 필드 건너뛰기 문제 수정
    • [SPARK-47463][SQL] V2Predicate를 사용하여 부울의 반환 형식으로 식 래핑
    • [SPARK-48445][SQL] 비싼 자식이 있는 UDF를 인라인하지 마세요.
    • [SPARK-48292][CORE] 되돌리기 [SPARK-39195][SQL] 커밋된 파일이 작업 상태와 일치하지 않는 경우 Spark OutputCommitCoordinator에서 단계를 중단해야 합니다.
    • [SPARK-48566][PYTHON] UDTF analyze()가 select와 partitionColumns를 모두 사용하는 경우 잘못된 파티션 인덱스 버그 수정
    • [SPARK-48648][PYTHON] [CONNECT] SparkConnectClient.tags를 올바르게 threadlocal로 만들기
    • [SPARK-48503][SQL] 잘못 허용되어 해당되지 않는 열에서 그룹별로 잘못된 스칼라 하위 쿼리 수정
    • [SPARK-48252][SQL] 필요한 경우 CommonExpressionRef 업데이트
    • [SPARK-48475][PYTHON] PySpark에서 _get_jvm_function 최적화합니다.
    • [SPARK-48294][SQL] nestedTypeMissingElementTypeError에서 소문자 처리
    • [SPARK-48286] 기존 기본 식을 사용하여 열 분석 수정 - 사용자 연결 오류 추가
    • [SPARK-47309][SQL] XML: 값 태그에 대한 스키마 유추 테스트 추가
    • [SPARK-47309][SQL] [XML] 스키마 유추 단위 테스트 추가
    • [SPARK-48273][SQL] PlanWithUnresolvedIdentifier의 늦은 다시 쓰기 수정
    • 운영 체제 보안 업데이트.
  • 2024년 6월 17일
    • applyInPandasWithState()는 공유 클러스터에서 사용할 수 있습니다.
    • 순위 창 최적화가 Photon TopK를 사용하여 구조체로 파티션을 잘못 처리하는 버그를 수정합니다.
    • [SPARK-48310][PYTHON] [CONNECT] 캐시된 속성은 복사본을 반환해야 합니다.
    • [SPARK-48276][PYTHON] [CONNECT] SQLExpression에 대해 누락된 __repr__ 메서드 추가
    • [SPARK-48277] ErrorClassesJsonReader.getErrorMessage에 대한 오류 메시지 개선
    • [SPARK-47764][CORE][SQL] ShuffleCleanupMode를 기준으로 랜덤 보기 종속성 정리
    • 운영 체제 보안 업데이트.
  • 2024년 5월 21일
    • 소수점을 포함하는 입력으로 인해 예기치 않은 예외가 발생하는 try_divide() 함수의 버그가 수정되었습니다.
    • [SPARK-48173][SQL] CheckAnalysis에 전체 쿼리 계획을 확인해야 합니다.
    • [SPARK-48016][SQL] 소수점을 사용하는 경우 try_divide 함수의 버그 수정
    • [SPARK-48105][SS] 상태 저장소 언로드와 스냅샷 간의 경합 상태 수정
    • [SPARK-48197][SQL] 잘못된 람다 함수에 대한 어설션 오류 방지
    • [SPARK-48180][SQL] TABLE arg를 사용한 UDTF 호출에서 여러 PARTITION/ORDER BY exprs 주위의 괄호를 잊은 경우 오류 개선
    • [SPARK-48014][SQL] EvaluatePython의 makeFromJava 오류를 사용자 연결 오류로 변경
    • [SPARK-48056][CONNECT] [PYTHON] SESSION_NOT_FOUND 오류가 발생하고 부분 응답이 수신되지 않은 경우 계획을 다시 실행
    • [SPARK-48146][SQL] With 식 자식 어설션의 집계 함수 수정
    • [SPARK-47994][SQL] SQLServer에서 CASE WHEN 열 필터 푸시 다운 관련 버그 수정
    • 운영 체제 보안 업데이트.
  • 2024년 5월 9일
    • [SPARK-47543][CONNECT][PYTHON] Pandas DataFrame에서 MapType으로 dict를 유추하여 DataFrame 만들기 허용
    • [SPARK-47739][SQL] 논리 avro 형식 등록
    • [SPARK-48044][PYTHON][CONNECT] DataFrame.isStreaming 캐시
    • [SPARK-47855][CONNECT] 지원되지 않는 목록에 spark.sql.execution.arrow.pyspark.fallback.enabled 추가
    • [SPARK-48010][SQL] resolveExpression에서 conf.resolver에 대한 반복 호출 방지
    • [SPARK-47941] [SS] [연결] PySpark 사용자에게 ForeachBatch 작업자 초기화 오류 전파
    • [SPARK-47819][CONNECT][Cherry-pick-15.0] 실행 정리에 비동기 콜백 사용
    • [SPARK-47956][SQL] 해결되지 않은 LCA 참조에 대한 온전성 검사
    • [SPARK-47839][SQL] RewriteWithExpression에서 집계 버그 수정
    • [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange가 발생할 때 매개 변수 오류가 누락되는 null groupId 수정
    • [SPARK-47371] [SQL] XML: CDATA에 있는 행 태그 무시
    • [SPARK-47907][SQL] 구성 아래에 뱅 넣기
    • [SPARK-47895][SQL] GROUP BY ALL은 idempotent여야 합니다.
    • [SPARK-47973][CORE] SparkContext.stop() 및 이후 SparkContext.assertNotStopped()에 호출 사이트 기록
    • [SPARK-47986][CONNECT] [PYTHON] 서버에서 기본 세션을 닫을 때 새 세션을 만들 수 없음
    • 운영 체제 보안 업데이트.

Databricks Runtime 15.0

Databricks Runtime 15.0(EoS)을 참조하세요.

  • 2024년 5월 30일
  • 2024년 4월 25일
    • [SPARK-47786] SELECT DISTINCT()는 SELECT DISTINCT구조체()(이전 동작으로 되돌리기)가 되어서는 안 됨
    • [SPARK-47802][SQL] 의미로 () 의미 구조체()에서 되돌리기 *
    • [SPARK-47509][SQL] LAMBDA 및 상위 함수에서 하위 쿼리 식 차단
    • [SPARK-47722] 닫기 전에 RocksDB 백그라운드 작업이 완료될 때까지 대기
    • [SPARK-47081][CONNECT] [팔로우] 진행률 처리기의 유용성 향상
    • [SPARK-47694][CONNECT] 클라이언트 쪽에서 최대 메시지 크기를 구성할 수 있도록 설정
    • [SPARK-47669][SQL][CONNECT][PYTHON] Column.try_cast 추가
    • [SPARK-47664][PYTHON] [CONNECT] [Cherry-pick-15.0] 캐시된 스키마를 사용하여 열 이름의 유효성 검사
    • [SPARK-47818][CONNECT] [Cherry-pick-15.0] SparkConnectPlanner에 계획 캐시를 도입하여 분석 요청의 성능 향상
    • [SPARK-47704][SQL] spark.sql.json.enablePartialResults를 사용하도록 설정하면 "java.lang.ClassCastException"으로 JSON 구문 분석이 실패
    • [SPARK-47755][CONNECT] 고유 값 수가 너무 크면 피벗이 실패
    • [SPARK-47713][SQL] [CONNECT] 셀프 조인 실패 수정
    • [SPARK-47812][CONNECT] ForEachBatch 작업자에 대한 SparkSession의 직렬화 지원
    • [SPARK-47828][CONNECT] [PYTHON] 잘못된 계획으로 DataFrameWriterV2.overwrite 실패
    • [SPARK-47862][PYTHON] [CONNECT] proto 파일 생성 수정
    • [SPARK-47800][SQL] tableIdentifier 변환에 대한 식별자에 대한 새 메서드 만들기
    • 운영 체제 보안 업데이트.
  • 2024년 4월 3일
    • (동작 변경) 컴퓨팅 유형 간에 일관된 동작을 보장하기 위해 공유 클러스터의 PySpark UDF는 이제 격리되지 않고 할당된 클러스터에서 UDF의 동작과 일치합니다. 이 업데이트에는 기존 코드를 중단할 수 있는 다음과 같은 변경 내용이 포함됩니다.
      • string 반환 형식이 있는 UDF는 더 이상 비 string 값을 string 값으로 암시적으로 변환하지 않습니다. 이전에는 반환 형식 str이 있는 UDF는 반환된 값의 실제 데이터 형식과 관계없이 반환 값을 str() 함수로 래핑했습니다.
      • timestamp 반환 형식이 있는 UDF는 더 이상timezone을 사용하여 timestamp에 대한 변환을 암시적으로 적용하지 않습니다.
      • Spark 클러스터 구성 spark.databricks.sql.externalUDF.*은 공유 클러스터의 PySpark UDF에 더 이상 적용되지 않습니다.
      • Spark 클러스터 구성 spark.databricks.safespark.externalUDF.plan.limit은 더 이상 PySpark UDF에 영향을 주지 않으며 PySpark UDF에 대한 쿼리당 5UDF의 공개 미리 보기 제한을 제거합니다.
      • Spark 클러스터 구성 spark.databricks.safespark.sandbox.size.default.mib은 더 이상 공유 클러스터의 PySpark UDF에 적용되지 않습니다. 대신 시스템에서 사용 가능한 메모리가 사용됩니다. PySpark UDF의 메모리를 제한하려면 spark.databricks.pyspark.udf.isolation.memoryLimit100m의 최소값으로 사용합니다.
    • 이제 TimestampNTZ 데이터 형식이 액체 클러스터링이 있는 클러스터링 열로 지원됩니다. Delta 테이블에 Liquid 클러스터링 사용을 참조하세요.
    • [SPARK-47218][SQL] XML: XML tokenizer에서 주석 처리된 행 태그 무시
    • [SPARK-46990][SQL] event-hubs에서 내보낸 빈 Avro 파일 로드 수정
    • [SPARK-47033][SQL] EXECUTE IMMEDIATE USING에서 세션 변수 이름을 인식하지 못하는 문제 수정
    • [SPARK-47368][SQL] ParquetRowConverter에서 inferTimestampNTZ 구성 검사 제거
    • [SPARK-47561][SQL] 별칭에 대한 분석기 규칙 순서 문제 해결
    • [SPARK-47638][PS] [CONNECT] PS에서 열 이름 유효성 검사 건너뛰기
    • [SPARK-46906][BACKPORT][SS] 스트리밍의 상태 저장 연산자 변경에 대한 확인 추가
    • [SPARK-47569][SQL] 변형 비교를 허용하지 않음
    • [SPARK-47241][SQL] ExtractGenerator에 대한 규칙 순서 문제 해결
    • [SPARK-47218] [SQL] XML: DROPMALFORMED 모드에서 SchemaOfXml이 실패하도록 변경됨
    • [SPARK-47300][SQL] quoteIfNeeded가 숫자로 따옴표 식별자를 시작해야 함
    • [SPARK-47009][SQL] [데이터 정렬] 데이터 정렬에 대한 테이블 만들기 지원 사용
    • [SPARK-47322][PYTHON] [CONNECT] withColumnsRenamed 열 이름 중복 처리가 withColumnRenamed와 일치하게 만들기
    • [SPARK-47544][PYTHON] SparkSession Builder 메서드는 Visual Studio Code intellisense와 호환되지 않음
    • [SPARK-47511][SQL] ID를 다시 할당하여 식으로 정규화
    • [SPARK-47385] 옵션 입력을 사용하여 튜플 인코더 수정
    • [SPARK-47200][SS] Foreach 일괄 처리 싱크 사용자 함수 오류에 대한 오류 클래스
    • [SPARK-47135][SS] Kafka 데이터 손실 예외에 대한 오류 클래스 구현
    • [SPARK-38708][SQL] Hive Metastore 클라이언트를 Hive 3.1용 3.1.3으로 업그레이드
    • [SPARK-47305][SQL] 계획에 일괄 처리 및 스트리밍이 모두 있는 경우 PruneFilters가 LocalRelation의 isStreaming 플래그에 올바르게 태그를 지정하도록 수정
    • [SPARK-47380][CONNECT] 서버 쪽에서 SparkSession이 동일한지 확인
    • 운영 체제 보안 업데이트.

Databricks Runtime 14.2

Databricks Runtime 14.2(EoS)를 참조하세요.

  • 2024년 10월 22일
    • [SPARK-49782][SQL] ResolveDataFrameDropColumns 규칙은 자식 출력으로 UnresolvedAttribute를 확인합니다.
    • [SPARK-49905] 상태 저장 연산자에 전용 ShuffleOrigin을 사용하여 AQE에서 순서 섞기를 수정하지 않도록 방지합니다.
    • 운영 체제 보안 업데이트.
  • 2024년 10월 10일
  • 2024년 9월 25일
    • [SPARK-48719][SQL] 'RegrS...
    • [SPARK-49628][SQL] ConstantFolding은 평가하기 전에 상태 저장 식을 복사해야 합니다.
    • [SPARK-49000][SQL] RewriteDistinctAggregates를 확장하여 t가 빈 테이블인 경우 "select count(distinct 1 from t") 수정
    • [SPARK-43242][CORE] 순서 섞기 손상 진단에서 throw 'BlockId의 예기치 않은 유형'을 수정합니다.
    • [SPARK-46601] [CORE] handleStatusMessage에서 로그 오류 수정
    • 운영 체제 보안 업데이트.
  • 2024년 9월 17일
    • [SPARK-49526][CONNECT] ArtifactManager에서 Windows 스타일 경로 지원
  • 2024년 8월 29일
    • [SPARK-49263][CONNECT] Spark Connect Python 클라이언트: 부울 DataFrame 판독기 옵션을 일관되게 처리
    • [SPARK-49146][SS] 추가 모드 스트리밍 쿼리에서 누락된 워터마크와 관련된 어설션 오류를 오류 프레임워크로 이동
    • [SPARK-49056][SQL] ErrorClassesJsonReader가 null을 제대로 처리할 수 없음
  • 2024년 8월 14일
    • [SPARK-48050][SS] 쿼리 시작 시 논리 계획 기록
    • [SPARK-48597][SQL] 논리 계획의 텍스트 표현에서 isStreaming 속성에 대한 표식 소개
    • [SPARK-49065][SQL] 레거시 포맷터/파서의 재지정은 비 JVM 기본 표준 시간대를 지원해야 합니다.
    • [SPARK-48706][PYTHON] 상위 순서 함수의 Python UDF는 내부 오류를 발생시키지 않습니다.
  • 2024년 8월 1일
    • 이 릴리스에는 Spark Java 인터페이스의 ColumnVectorColumnarArray 클래스에 대한 버그 수정이 포함되어 있습니다. 이 수정 이전에는 이러한 클래스 중 하나의 인스턴스에 null 값이 포함되어 있을 때 ArrayIndexOutOfBoundsException이 발생하거나 잘못된 데이터가 반환될 수 있었습니다.
    • 이제 SHOW CREATE TABLE 문의 출력에는 구체화된 뷰 또는 스트리밍 테이블에 정의된 모든 행 필터 또는 열 마스크가 포함됩니다. SHOW CREATE TABLE을 참조하세요. 행 필터 및 열 마스크를 사용하는 방법에 대해 알아보려면 행 필터 및 열 마스크를 사용하여 중요한 테이블 데이터 필터링을 참조하세요.
    • [SPARK-47202][PYTHON] tzinfo를 사용하여 오타가 생긴 날짜/시간 수정
    • [SPARK-48705][PYTHON] pyspark로 시작할 때 worker_main 명시적으로 사용
    • 운영 체제 보안 업데이트.
  • 2024년 7월 11일
    • (동작 변경) 이제 원본 테이블을 덮어쓰면 Delta 테이블 원본에 대해 캐시된 DataFrame이 무효화됩니다. 이 변경은 이제 Delta 테이블의 모든 상태 변경 내용이 캐시된 결과를 무효화한다는 것을 의미합니다. DataFrame의 수명 동안 테이블 상태를 유지하는 데 .checkpoint()를 사용합니다.
    • Snowflake JDBC 드라이버가 버전 3.16.1로 업데이트됩니다.
    • 이 릴리스에는 Databricks 컨테이너 서비스에서 실행할 때 Spark UI 환경 탭이 올바르게 표시되지 않는 문제에 대한 수정 사항이 포함되어 있습니다.
    • [SPARK-48292][CORE] 되돌리기 [SPARK-39195][SQL] 커밋된 파일이 작업 상태와 일치하지 않는 경우 Spark OutputCommitCoordinator에서 단계를 중단해야 합니다.
    • [SPARK-48273][SQL] PlanWithUnresolvedIdentifier의 늦은 다시 쓰기 수정
    • [SPARK-48503][SQL] 잘못 허용되어 해당되지 않는 열에서 그룹별로 잘못된 스칼라 하위 쿼리 수정
    • [SPARK-48481][SQL] [SS] 스트리밍 데이터 세트에 OptimizeOneRowPlan을 적용하지 마세요.
    • [SPARK-48475][PYTHON] PySpark에서 _get_jvm_function 최적화합니다.
    • [SPARK-48100][SQL] 스키마에서 선택되지 않은 중첩된 구조 필드 건너뛰기 문제 수정
    • [SPARK-48445][SQL] 비싼 자식이 있는 UDF를 인라인하지 마세요.
    • [SPARK-48383][SS] Kafka의 startOffset 옵션에서 일치하지 않는 파티션에 대해 오류 개선
    • 운영 체제 보안 업데이트.
  • 2024년 6월 17일
    • 순위 창 최적화가 Photon TopK를 사용하여 구조체로 파티션을 잘못 처리하는 버그를 수정합니다.
    • [SPARK-48276][PYTHON] [CONNECT] SQLExpression에 대해 누락된 __repr__ 메서드 추가
    • [SPARK-48277] ErrorClassesJsonReader.getErrorMessage에 대한 오류 메시지 개선
    • 운영 체제 보안 업데이트.
  • 2024년 5월 21일
  • 2024년 5월 9일
    • [SPARK-48044][PYTHON][CONNECT] DataFrame.isStreaming 캐시
    • [SPARK-47956][SQL] 해결되지 않은 LCA 참조에 대한 온전성 검사
    • [SPARK-47371] [SQL] XML: CDATA에 있는 행 태그 무시
    • [SPARK-47812][CONNECT] ForEachBatch 작업자에 대한 SparkSession의 직렬화 지원
    • [SPARK-47895][SQL] GROUP BY ALL은 idempotent여야 합니다.
    • [SPARK-47973][CORE] SparkContext.stop() 및 이후 SparkContext.assertNotStopped()에 호출 사이트 기록
    • 운영 체제 보안 업데이트.
  • 2024년 4월 25일
    • [SPARK-47704][SQL] spark.sql.json.enablePartialResults를 사용하도록 설정하면 "java.lang.ClassCastException"으로 JSON 구문 분석이 실패
    • [SPARK-47828][CONNECT] [PYTHON] 잘못된 계획으로 DataFrameWriterV2.overwrite 실패
    • 운영 체제 보안 업데이트.
  • 2024년 4월 11일
    • [SPARK-47309][SQL] [XML] 스키마 유추 단위 테스트 추가
    • [SPARK-46990][SQL] event-hubs에서 내보낸 빈 Avro 파일 로드 수정
    • [SPARK-47638][PS] [CONNECT] PS에서 열 이름 유효성 검사 건너뛰기
    • [SPARK-47509][SQL] LAMBDA 및 상위 함수에서 하위 쿼리 식 차단
    • [SPARK-38708][SQL] Hive Metastore 클라이언트를 Hive 3.1용 3.1.3으로 업그레이드
    • 운영 체제 보안 업데이트.
  • 2024년 4월 1일
    • [SPARK-47322][PYTHON] [CONNECT] withColumnsRenamed 열 이름 중복 처리가 withColumnRenamed와 일치하게 만들기
    • [SPARK-47385] 옵션 입력을 사용하여 튜플 인코더 수정
    • [SPARK-47070] 하위 쿼리 다시 쓰기 후 잘못된 집계 수정
    • [SPARK-47218] [SQL] XML: DROPMALFORMED 모드에서 SchemaOfXml이 실패하도록 변경됨
    • [SPARK-47305][SQL] 계획에 일괄 처리 및 스트리밍이 모두 있는 경우 PruneFilters가 LocalRelation의 isStreaming 플래그에 올바르게 태그를 지정하도록 수정
    • [SPARK-47218][SQL] XML: XML tokenizer에서 주석 처리된 행 태그 무시
    • [SPARK-46861][CORE] DAGScheduler에서 교착 상태 방지” 되돌리기
    • [SPARK-47300][SQL] quoteIfNeeded가 숫자로 따옴표 식별자를 시작해야 함
    • [SPARK-47368][SQL] ParquetRowConverter에서 inferTimestampNTZ 구성 검사 제거
    • 운영 체제 보안 업데이트.
  • 2024년 3월 14일
    • [SPARK-47035][SS][CONNECT] 클라이언트 쪽 수신기에 대한 프로토콜
    • [SPARK-47121][CORE] StandaloneSchedulerBackend 종료 중 RejectedExecutionExceptions 방지
    • [SPARK-47145][SQL] V2 전략에 대한 행 데이터 원본 스캔 exec에 테이블 식별자 전달
    • [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruning 도우미 함수 있음
    • [SPARK-47167][SQL] JDBC 익명 관계에 대해 구체적 클래스 추가
    • [SPARK-47129][CONNECT][SQL] ResolveRelations 캐시 연결 계획 올바르게 만들기
    • [SPARK-47044][SQL] 출력을 설명하기 위해 JDBC 외부 데이터 원본에 대해 실행된 쿼리 추가
    • 운영 체제 보안 업데이트.
  • 2024년 2월 29일
    • MERGE 명령에서 로컬 컬렉션을 원본으로 사용하면 작업 메트릭 numSourceRows가 올바른 행 수를 두 배로 보고할 수 있는 문제가 해결되었습니다.
    • 이제 정의된 위치로 스키마를 만들려면 사용자가 ANY FILE에 대해 SELECT 및 MODIFY 권한을 가져야 합니다.
    • 이제 자동 로더, read_files, COPY INTO, DLT 및 DBSQL을 사용하여 XML 파일을 수집할 수 있습니다. XML 파일 지원은 스키마를 자동으로 유추 및 발전시키고, 형식 불일치로 데이터를 구출하고, XSD를 사용하여 XML의 유효성을 검사하고, from_xml, schema_of_xml 및 to_xml 같은 SQL 식을 지원할 수 있습니다. 추가 세부 정보는 XML 파일 지원을 참조하세요. 이전에 외부 spark-xml 패키지를 사용했다면 마이그레이션 참고 자료는 여기를 참조하세요.
    • [SPARK-46954][SQL] XML: BufferedReader를 사용하여 InputStreamReader 래핑
    • [SPARK-46630][SQL] XML: 쓰기에서 XML 요소 이름 유효성 검사
    • [SPARK-46248][SQL] XML: ignoreCorruptFiles 및 ignoreMissingFiles 옵션 지원
    • [SPARK-46954][SQL] XML: 스키마 인덱스 조회 최적화
    • [SPARK-47059][SQL] ALTER COLUMN v1 명령에 대한 오류 컨텍스트 연결
    • [SPARK-46993][SQL] 세션 변수에 대한 상수 폴딩 수정
  • 2024년 2월 8일
    • Unity 카탈로그 구체화된 뷰의 CDF(변경 데이터 피드) 쿼리는 지원되지 않으며 Unity 카탈로그 구체화된 뷰를 사용하여 CDF 쿼리를 실행하려고 시도하면 오류가 반환됩니다. Unity 카탈로그 스트리밍 테이블은 Databricks Runtime 14.1 이상에서 테이블이 아닌APPLY CHANGES 테이블에 대한 CDF 쿼리를 지원합니다. CDF 쿼리는 Databricks Runtime 14.0 이하의 Unity 카탈로그 스트리밍 테이블에서 지원되지 않습니다.
    • [SPARK-46930] Avro에서 Union 형식 필드에 대한 사용자 지정 접두사에 대한 지원을 추가합니다.
    • [SPARK-46822] jdbc 형식을 jdbc의 촉매 형식에 캐스팅할 때 spark.sql.legacy.charVarcharAsString을 존중합니다.
    • [SPARK-46952] XML: 손상된 레코드의 크기를 제한합니다.
    • [SPARK-46644] isZero를 사용하도록 SQLMetric에서 추가 및 병합을 변경합니다.
    • [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
    • [SPARK-46794] LogicalRDD 제약 조건에서 하위 쿼리를 제거합니다.
    • [SPARK-46941] SizeBasedWindowFunction이 포함된 경우 최상위 K 계산에 대한 창 그룹 제한 노드를 삽입할 수 없습니다.
    • [SPARK-46933] JDBCRDD를 사용하는 커넥터에 쿼리 실행 시간 메트릭을 추가합니다.
    • 운영 체제 보안 업데이트.
  • 2024년 1월 31일
    • [SPARK-46382] XML: ignoreSurroundingSpaces에 대한 문서를 업데이트합니다.
    • [SPARK-46382] XML: 요소 사이에 흩어져 있는 값을 캡처합니다.
    • [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
    • [SPARK-46769] 타임스탬프 관련 스키마 유추 상세 검색을 되돌립니다.
    • [SPARK-46677] dataframe["*"] 해결 방법을 수정합니다.
    • [SPARK-46382] XML: 기본값 ignoreSurroundingSpaces를 true로 설정합니다.
    • [SPARK-46633] 길이가 0인 블록을 처리하도록 Avro 판독기를 수정합니다.
    • [SPARK-45964] 촉매 패키지의 XML 및 JSON 패키지에서 비공개 sql 접근자를 제거합니다.
    • [SPARK-46581] AccumulatorV2에서 isZero에 대한 메모를 업데이트합니다.
    • [SPARK-45912] XSDToSchema API 기능 향상: 클라우드 스토리지 접근성을 위해 HDFS API로 변경합니다.
    • [SPARK-45182] 체크섬에 의해 결정된 대로 부모 확정되지 않은 단계를 다시 시도하면 이전 단계에서 작업 완료를 무시합니다.
    • [SPARK-46660] ReattachExecute는 SessionHolder의 활성 업데이트를 요청합니다.
    • [SPARK-46610] 옵션에서 키에 대한 값이 없는 경우 테이블을 만들면 예외가 throw됩니다.
    • [SPARK-46383] TaskInfo.accumulables()의 수명을 줄여 드라이버 힙 사용량을 줄입니다.
    • [SPARK-46769] 타임스탬프 관련 스키마 유추를 구체화합니다.
    • [SPARK-46684] 인수를 제대로 전달하도록 CoGroup.applyInPandas/Arrow를 수정합니다.
    • [SPARK-46676] dropDuplicatesWithinWatermark는 계획의 정규화에 실패하지 않아야 합니다.
    • [SPARK-45962] XML에서 treatEmptyValuesAsNulls를 제거하고 대신 nullValue 옵션을 사용합니다.
    • [SPARK-46541] 셀프 조인에서 모호한 열 참조를 수정합니다.
    • [SPARK-46599] XML: 호환성 검사를 위해 TypeCoercion.findTightestCommonType을 사용합니다.
    • 운영 체제 보안 업데이트.
  • 2024년 1월 17일
    • Photon 쿼리에서 반환된 설명 계획의 shuffle 노드는 브로드캐스트 조인의 일부인 순서 섞기 중에 메모리 부족 오류가 발생할 때 causedBroadcastJoinBuildOOM=true 플래그를 추가하도록 업데이트됩니다.
    • TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 유지 관리 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
    • [SPARK-46261] DataFrame.withColumnsRenamed는 dict/map 순서를 유지해야 합니다.
    • [SPARK-46538] ALSModel.transform에서 모호한 열 참조 문제를 해결합니다.
    • [SPARK-46145] spark.catalog.listTables는 테이블 또는 뷰를 찾을 수 없을 때 예외를 throw하지 않습니다.
    • [SPARK-46484] resolveOperators 도우미 함수가 계획 ID를 유지하도록 합니다.
    • [SPARK-46394] spark.sql.legacy.keepCommandOutputSchema가 true로 설정된 경우 특수 문자를 사용하여 스키마에서 spark.catalog.listDatabases() 문제를 해결합니다.
    • [SPARK-46609] PartitioningPreservingUnaryExecNode에서 지수 폭발을 방지합니다.
    • [SPARK-46446] 상관 관계가 있는 OFFSET로 하위 쿼리를 사용 중지하여 정확성 버그를 수정합니다.
    • [SPARK-46152] XML: XML 스키마 유추에서 DecimalType 지원을 추가합니다.
    • [SPARK-46602] 뷰/테이블이 없을 때 뷰 만들기에서 allowExisting를 전파합니다.
    • [SPARK-45814] 메모리 누수 방지를 위해 ArrowConverters.createEmptyArrowBatch call close()를 만듭니다.
    • [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
    • [SPARK-46132] RPC SSL의 JKS 키에 대한 키 암호를 지원합니다.
    • [SPARK-46600] SqlConf와 SqlApiConf 간에 공유 코드를 SqlApiConfHelper로 이동합니다.
    • [SPARK-46478] 문자열에 oracle varchar(255)를 사용하도록 SPARK-43049를 되돌립니다.
    • [SPARK-46417] hive.getTable을 호출하고 throwException이 false인 경우 실패하지 마세요.
    • [SPARK-46153] XML: TimestampNTZType 지원을 추가합니다.
    • [SPARK-46056][BACKPORT] Parquet 벡터화된 읽기 NPE를 byteArrayDecimalType 기본값으로 수정합니다.
    • [SPARK-46466] 벡터화된 parquet 판독기는 타임스탬프 ntz에 대한 재베이스를 수행해서는 안 됩니다.
    • [SPARK-46260] DataFrame.withColumnsRenamed는 받아쓰기 순서를 준수해야 합니다.
    • [SPARK-46036] raise_error 함수에서 오류 클래스를 제거합니다.
    • [SPARK-46294] init 및 0 값의 의미 체계를 정리합니다.
    • [SPARK-46173] 날짜 구문 분석 중 trimAll 호출을 건너뜁니다.
    • [SPARK-46250] test_parity_listener를 안정화합니다.
    • [SPARK-46587] XML: XSD 큰 정수 전환을 수정합니다.
    • [SPARK-46396] 타임스탬프 유추는 예외를 throw해서는 안 됩니다.
    • [SPARK-46241] 무한 재귀에 빠지지 않도록 오류 처리 루틴을 수정합니다.
    • [SPARK-46355] XML: 읽기 완료 시 InputStreamReader를 닫습니다.
    • [SPARK-46370] 열 기본값을 변경한 후 테이블에서 쿼리할 때 버그를 수정합니다.
    • [SPARK-46265] AddArtifact RPC의 어설션은 연결 클라이언트를 이전 클러스터와 호환되지 않도록 합니다.
    • [SPARK-46308] 재귀 오류 처리를 금지합니다.
    • [SPARK-46337] CTESubstitutionPLAN_ID_TAG를 유지하게 합니다.
  • 2023년 12월 14일
    • [SPARK-46141] spark.sql.legacy.ctePrecedencePolicy의 기본값을 CORRECTED로 변경합니다.
    • [SPARK-45730] ReloadingX509TrustManagerSuite를 덜 불안정하게 합니다.
    • [SPARK-45852] 로깅하는 동안 재귀 오류를 정상적으로 처리합니다.
    • [SPARK-45808] SQL 예외에 대한 오류 처리 향상.
    • [SPARK-45920] 서수별 그룹은 idempotent여야 합니다.
    • "[SPARK-45649] OffsetWindowFunctionFrame에 대한 준비 프레임워크 통합"을 되돌립니다.
    • [SPARK-45733] 여러 재시도 정책을 지원합니다.
    • [SPARK-45509] Spark Connect에 대한 df 열 참조 동작을 수정합니다.
    • [SPARK-45655] CollectMetrics의 AggregateFunctions 내에서 비결정적 식을 허용합니다.
    • [SPARK-45905] 소수점 형식 간의 최소 공통 형식은 먼저 정수 자릿수를 유지해야 합니다.
    • [SPARK-45136] Ammonite 지원을 사용하여 ClosureCleaner를 개선합니다.
    • [SPARK-46255] 복합 형식 -> 문자열 변환을 지원합니다.
    • [SPARK-45859] ml.functions의 UDF 개체를 지연으로 만듭니다.
    • [SPARK-46028] Column.__getitem__가 입력 열을 수락하게 만듭니다.
    • [SPARK-45798] 서버 쪽 세션 ID를 어설션합니다.
    • [SPARK-45892] validateSchemaOutputvalidateExprIdUniqueness 분리를 위해 최적화 프로그램 계획 유효성 검사를 리팩터링합니다.
    • [SPARK-45844] XML에 대한 대/소문자 구분을 구현합니다.
    • [SPARK-45770] Dataframe.drop에 대한 DataFrameDropColumns 계획을 소개합니다.
    • [SPARK-44790] XML: python, Connect 및 SQL에 대한 to_xml 구현 및 바인딩.
    • [SPARK-45851] scala 클라이언트에서 여러 정책을 지원합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 11월 29일
    • PyArrow RCE 취약성을 수정하기 위해 새 패키지 pyarrow-hotfix를 설치했습니다.
    • JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업에서 이스케이프된 밑줄이 와일드카드로 잘못 해석되는 문제를 해결했습니다.
    • [SPARK-45730] ReloadingX509TrustManagerSuite에 대한 시간 제약 조건이 개선되었습니다.
    • [SPARK-45852] 이제 Spark Connect용 Python 클라이언트는 텍스트 전환 중에 재귀 오류를 포착합니다.
    • [SPARK-45808] SQL 예외에 대한 오류 처리가 개선되었습니다.
    • [SPARK-45920] GROUP BY 서수는 서수를 대체하지 않습니다.
    • [SPARK-45649]을 되돌립니다.
    • [SPARK-45733] 여러 재시도 정책에 대한 지원이 추가되었습니다.
    • [SPARK-45509] Spark Connect에 대한 df 열 참조 동작을 수정했습니다.
    • [SPARK-45655] CollectMetrics에서 AggregateFunctions 안에 있는 비결정적 식을 허용합니다.
    • [SPARK-45905] 이제 소수점 형식 간의 최소 공통 형식은 정수 자릿수를 먼저 유지합니다.
    • [SPARK-45136] Ammonite 지원을 통해 ClosureCleaner를 개선합니다.
    • [SPARK-45859] UDF 개체를 ml.functions 지연으로 만들었습니다.
    • [SPARK-46028] Column.__getitem__는 입력 열을 수락합니다.
    • [SPARK-45798] 서버 쪽 세션 ID를 어설션합니다.
    • [SPARK-45892] validateSchemaOutputvalidateExprIdUniqueness 분리를 위해 최적화 프로그램 계획 유효성 검사를 리팩터링합니다.
    • [SPARK-45844] XML에 대한 대/소문자 구분을 구현합니다.
    • [SPARK-45770] Dataframe.drop에 대해 DataFrameDropColumns를 사용하는 열 해결이 수정되었습니다.
    • [SPARK-44790] Python, Spark Connect 및 SQL에 대한 to_xml 구현 및 바인딩이 추가되었습니다.
    • [SPARK-45851] Scala 클라이언트에서 여러 정책에 대한 지원이 추가되었습니다.
    • 운영 체제 보안 업데이트.

Databricks Runtime 14.0

Databricks Runtime 14.0(EoS)을 참조하세요.

  • 2024년 2월 8일
    • [SPARK-46396] 타임스탬프 유추는 예외를 throw해서는 안 됩니다.
    • [SPARK-46794] LogicalRDD 제약 조건에서 하위 쿼리를 제거합니다.
    • [SPARK-45182] 체크섬에 의해 결정된 대로 부모 확정되지 않은 단계를 다시 시도하면 이전 단계에서 작업 완료를 무시합니다.
    • [SPARK-46933] JDBCRDD를 사용하는 커넥터에 쿼리 실행 시간 메트릭을 추가합니다.
    • [SPARK-45957] 실행 불가능한 명령에 대한 실행 계획을 생성하지 않습니다.
    • [SPARK-46861] DAGScheduler에서 교착 상태를 방지합니다.
    • [SPARK-46930] Avro에서 Union 형식 필드에 대한 사용자 지정 접두사에 대한 지원을 추가합니다.
    • [SPARK-46941] SizeBasedWindowFunction이 포함된 경우 최상위 K 계산에 대한 창 그룹 제한 노드를 삽입할 수 없습니다.
    • [SPARK-45582] 출력 모드 스트리밍 집계 내에서 커밋을 호출한 후 저장소 인스턴스가 사용되지 않는지 확인합니다.
    • 운영 체제 보안 업데이트.
  • 2024년 1월 31일
    • [SPARK-46541] 셀프 조인에서 모호한 열 참조를 수정합니다.
    • [SPARK-46676] dropDuplicatesWithinWatermark는 계획의 정규화에 실패하지 않아야 합니다.
    • [SPARK-46769] 타임스탬프 관련 스키마 유추를 구체화합니다.
    • [SPARK-45498] 후속 작업: 이전 단계 시도에서 작업 완료를 무시합니다.
    • 되돌리기 [SPARK-46769] 타임스탬프 관련 스키마 유추를 구체화합니다.
    • [SPARK-46383] TaskInfo.accumulables()의 수명을 줄여 드라이버 힙 사용량을 줄입니다.
    • [SPARK-46633] 길이가 0인 블록을 처리하도록 Avro 판독기를 수정합니다.
    • [SPARK-46677] dataframe["*"] 해결 방법을 수정합니다.
    • [SPARK-46684] 인수를 제대로 전달하도록 CoGroup.applyInPandas/Arrow를 수정합니다.
    • [SPARK-46763] 중복 특성에 대한 ReplaceDeduplicateWithAggregate의 어설션 오류를 수정합니다.
    • [SPARK-46610] 옵션에서 키에 대한 값이 없는 경우 테이블을 만들면 예외가 throw됩니다.
    • 운영 체제 보안 업데이트.
  • 2024년 1월 17일
    • Photon 쿼리에서 반환된 설명 계획의 shuffle 노드는 브로드캐스트 조인의 일부인 순서 섞기 중에 메모리 부족 오류가 발생할 때 causedBroadcastJoinBuildOOM=true 플래그를 추가하도록 업데이트됩니다.
    • TLSv1.3을 통해 통신할 때 대기 시간이 증가하지 않도록 하기 위해 이 유지 관리 릴리스에는 JDK 버그 JDK-8293562를 수정하기 위한 JDK 8 설치 패치가 포함되어 있습니다.
    • [SPARK-46394] spark.sql.legacy.keepCommandOutputSchema가 true로 설정된 경우 특수 문자를 사용하여 스키마에서 spark.catalog.listDatabases() 문제를 해결합니다.
    • [SPARK-46250] test_parity_listener를 안정화합니다.
    • [SPARK-45814] 메모리 누수 방지를 위해 ArrowConverters.createEmptyArrowBatch call close()를 만듭니다.
    • [SPARK-46173] 날짜 구문 분석 중 trimAll 호출을 건너뜁니다.
    • [SPARK-46484] resolveOperators 도우미 함수가 계획 ID를 유지하도록 합니다.
    • [SPARK-46466] 벡터화된 parquet 판독기는 타임스탬프 ntz에 대한 재베이스를 수행해서는 안 됩니다.
    • [SPARK-46056] Parquet 벡터화된 읽기 NPE를 byteArrayDecimalType 기본값으로 수정합니다.
    • [SPARK-46058] privateKeyPassword에 별도의 플래그를 추가합니다.
    • [SPARK-46478] 문자열에 oracle varchar(255)를 사용하도록 SPARK-43049를 되돌립니다.
    • [SPARK-46132] RPC SSL의 JKS 키에 대한 키 암호를 지원합니다.
    • [SPARK-46417] hive.getTable을 호출하고 throwException이 false인 경우 실패하지 마세요.
    • [SPARK-46261] DataFrame.withColumnsRenamed는 dict/map 순서를 유지해야 합니다.
    • [SPARK-46370] 열 기본값을 변경한 후 테이블에서 쿼리할 때 버그를 수정합니다.
    • [SPARK-46609] PartitioningPreservingUnaryExecNode에서 지수 폭발을 방지합니다.
    • [SPARK-46600] SqlConf와 SqlApiConf 간에 공유 코드를 SqlApiConfHelper로 이동합니다.
    • [SPARK-46538] ALSModel.transform에서 모호한 열 참조 문제를 해결합니다.
    • [SPARK-46337] CTESubstitutionPLAN_ID_TAG를 유지하게 합니다.
    • [SPARK-46602] 뷰/테이블이 없을 때 뷰 만들기에서 allowExisting를 전파합니다.
    • [SPARK-46260] DataFrame.withColumnsRenamed는 받아쓰기 순서를 준수해야 합니다.
    • [SPARK-46145] spark.catalog.listTables는 테이블 또는 뷰를 찾을 수 없을 때 예외를 throw하지 않습니다.
  • 2023년 12월 14일
    • JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업의 이스케이프된 밑줄이 잘못 처리되고 와일드카드로 해석되는 문제를 해결했습니다.
    • [SPARK-46255] 복합 형식 -> 문자열 변환을 지원합니다.
    • [SPARK-46028] Column.__getitem__가 입력 열을 수락하게 만듭니다.
    • [SPARK-45920] 서수별 그룹은 idempotent여야 합니다.
    • [SPARK-45433] 타임스탬프가 지정된 timestampFormat과 일치하지 않는 경우 CSV/JSON 스키마 유추를 수정합니다.
    • [SPARK-45509] Spark Connect에 대한 df 열 참조 동작을 수정합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 11월 29일
    • PyArrow RCE 취약성을 수정하기 위해 새 패키지 pyarrow-hotfix를 설치했습니다.
    • JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업에서 이스케이프된 밑줄이 와일드카드로 잘못 해석되는 문제를 해결했습니다.
    • 자동 로더 또는 스트리밍 테이블을 사용하여 CSV 데이터를 수집할 때 이제 큰 CSV 파일을 분할할 수 있으며 스키마 유추 및 데이터 처리 중에 병렬로 처리할 수 있습니다.
    • Spark-snowflake 커넥터가 2.12.0으로 업그레이드되었습니다.
    • [SPARK-45859] UDF 개체를 ml.functions 지연으로 만들었습니다.
    • 되돌리기 [SPARK-45592].
    • [SPARK-45892] validateSchemaOutputvalidateExprIdUniqueness 분리를 위해 최적화 프로그램 계획 유효성 검사를 리팩터링합니다.
    • [SPARK-45592] InMemoryTableScanExec을 사용하여 AQE의 정확성 문제를 해결했습니다.
    • [SPARK-45620] Python UDF와 관련된 API는 이제 camelCase를 사용합니다.
    • [SPARK-44784] SBT 테스트를 격리된 환경에서 실행하도록 만들었습니다.
    • [SPARK-45770] Dataframe.drop에 대해 DataFrameDropColumns를 사용하는 열 해결이 수정되었습니다.
    • [SPARK-45544] TransportContext에 대한 SSL 지원이 통합되었습니다.
    • [SPARK-45730] ReloadingX509TrustManagerSuite에 대한 시간 제약 조건이 개선되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 11월 10일
    • Unity 카탈로그 스트리밍 테이블 및 구체화된 뷰에서 데이터 피드 쿼리가 변경되어 오류 메시지가 표시됩니다.
    • [SPARK-45545] SparkTransportConf는 생성 시 SSLOptions을 상속합니다.
    • [SPARK-45584] TakeOrderedAndProjectExec를 사용하여 하위 쿼리 실행 실패를 수정했습니다.
    • [SPARK-45427] SSLOptionsSparkTransportConf에 RPC SSL 설정이 추가되었습니다.
    • [SPARK-45541] SSLFactory가 추가되었습니다.
    • [SPARK-45430] FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount의 경우 더 이상 실패하지 않습니다.
    • [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
    • [SPARK-44219] 최적화 재작성을 위한 규칙별 추가 유효성 검사가 추가되었습니다.
    • [SPARK-45543] 다른 창 함수에 순위와 유사한 함수와 동일한 창 프레임이 없는 경우 InferWindowGroupLimit에서 오류가 발생하는 문제를 해결했습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 10월 23일
    • [SPARK-45426] ReloadingX509TrustManager에 대한 지원이 추가되었습니다.
    • [SPARK-45396] PySpark.ml.connect 모듈에 대한 DOC 항목을 추가하고 ml.connect__all__Evaluator을 추가했습니다.
    • [SPARK-45256] 초기 용량보다 더 많은 값을 쓸 때 DurationWriter가 실패하는 문제를 해결했습니다.
    • [SPARK-45279] 모든 논리 계획에 plan_id가 연결됩니다.
    • [SPARK-45250] 동적 할당이 해제된 경우 yarn 클러스터에 대한 단계 수준 작업 리소스 프로필에 대한 지원이 추가되었습니다.
    • [SPARK-45182] 스테이지 출력이 확정되지 않은 경우 모든 스테이지 작업을 다시 시도 할 수 있도록 순서 섞기 맵 스테이지 롤백에 대한 지원이 추가되었습니다.
    • [SPARK-45419] 더 큰 버전의 파일 버전 맵 항목을 제거하여 다른 rocksdb 인스턴스에서 rocksdb sst 파일을 다시 사용하지 마세요.
    • [SPARK-45386] StorageLevel.NONE에서 0을 잘못 반환하는 문제를 해결했습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 10월 13일
    • Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
    • array_insert 함수는 양수 및 음수 인덱스에 대해 1부터 시작합니다. 이전에는 음수 인덱스의 경우 0부터 시작했습니다. 이제 인덱스 -1의 입력 배열 끝에 새 요소를 삽입합니다. 이전 동작을 복원하려면 spark.sql.legacy.negativeIndexInArrayInserttrue로 설정합니다.
    • 자동 로더를 사용한 CSV 스키마 유추에 ignoreCorruptFiles를 사용하도록 설정한 경우 Azure Databricks는 더 이상 손상된 파일을 무시하지 않습니다.
    • [SPARK-45227] CoarseGrainedExecutorBackend을 사용하여 미묘한 스레드 안전 문제를 해결했습니다.
    • [SPARK-44658] ShuffleStatus.getMapStatusSome(null) 대신 None을 반환해야 합니다.
    • [SPARK-44910] Encoders.bean는 제네릭 형식 인수가 있는 슈퍼클래스를 지원하지 않습니다.
    • [SPARK-45346] Parquet 스키마 유추는 스키마를 병합할 때 대/소문자를 구분하는 플래그를 적용합니다.
    • 되돌리기 [SPARK-42946].
    • [SPARK-42205] 작업 또는 스테이지 시작 이벤트에서 Accumulables 로깅을 제거하도록 JSON 프로토콜을 업데이트했습니다.
    • [SPARK-45360] Spark 세션 작성기에서 SPARK_REMOTE에서의 초기화를 지원합니다.
    • [SPARK-45316] HadoopRDDNewHadoopRDD에 새 매개 변수 ignoreCorruptFiles/ignoreMissingFiles를 추가합니다.
    • [SPARK-44909] 토치 배포자 로그 스트리밍 서버를 사용할 수 없는 경우 실행을 건너뜁니다.
    • [SPARK-45084] StateOperatorProgress는 이제 정확한 순서 섞기 파티션 번호를 사용합니다.
    • [SPARK-45371] Spark Connect Scala 클라이언트의 음영 문제가 해결되었습니다.
    • [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본이 있는 Trigger.AvailableNow에 대해 단일 일괄 처리를 실행하는 것으로 대체합니다.
    • [SPARK-44840] 음수 인덱스에 대해 array_insert()을 1부터 만듭니다.
    • [SPARK-44551] OSS로 동기화할 주석을 편집했습니다.
    • [SPARK-45078] 이제 요소 형식이 파생된 구성 요소 형식과 같지 않을 때 ArrayInsert 함수가 명시적 캐스팅을 수행합니다.
    • [SPARK-45339] 이제 PySpark는 재시도 오류를 기록합니다.
    • [SPARK-45057] keepReadLock가 false인 경우 읽기 잠금을 획득하지 않습니다.
    • [SPARK-44908] 교차 유효성 검사기 foldCol 매개 변수 기능이 수정되었습니다.
    • 운영 체제 보안 업데이트.

Databricks Runtime 13.1

Databricks Runtime 13.1(EoS)을 참조하세요.

  • 2023년 11월 29일
    • JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업에서 이스케이프된 밑줄이 와일드카드로 잘못 해석되는 문제를 해결했습니다.
    • [SPARK-44846] RemoveRedundantAggregates 뒤의 복합 그룹화 식이 제거되었습니다.
    • [SPARK-43802] unhex 및 unbase64 식에 대한 codegen이 실패하는 문제를 해결했습니다.
    • [SPARK-43718] USING 조인의 키에 대한 null 허용 여부가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 11월 14일
    • 더 나은 사용률을 달성하기 위해 속도 제한 전에 Delta Lake 스트리밍 쿼리의 파티션 필터가 푸시다운됩니다.
    • Unity 카탈로그 스트리밍 테이블 및 구체화된 뷰에서 데이터 피드 쿼리가 변경되어 오류 메시지가 표시됩니다.
    • [SPARK-45584] TakeOrderedAndProjectExec를 사용하여 하위 쿼리 실행 실패를 수정했습니다.
    • [SPARK-45430] FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount의 경우 더 이상 실패하지 않습니다.
    • [SPARK-45543] 다른 창 함수에 순위와 유사한 함수와 동일한 창 프레임이 없는 경우 InferWindowGroupLimit에서 문제가 발생하는 문제를 해결했습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 10월 24일
    • [SPARK-43799] PySpark Protobuf API에 설명자 이진 옵션이 추가되었습니다.
    • 되돌리기 [SPARK-42946].
    • [SPARK-45346] 이제 Parquet 스키마 유추는 스키마를 병합할 때 대/소문자를 구분하는 플래그를 적용합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 10월 13일
    • Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
    • 자동 로더를 사용하여 CSV 스키마 유추 중에 ignoreCorruptFiles를 사용하는 경우 손상된 파일을 더 이상 무시하지 않습니다.
    • [SPARK-44658] ShuffleStatus.getMapStatus에서 Some(null)가 아닌 None을 반환합니다.
    • [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본이 있는 Trigger.AvailableNow에 대해 단일 일괄 처리를 실행하는 것으로 대체합니다.
    • [SPARK-42205] 작업 또는 스테이지 시작 이벤트에서 Accumulables 로깅을 제거하도록 JSON 프로토콜을 업데이트했습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 9월 12일
    • [SPARK-44718] ColumnVector 메모리 모드 구성 기본값을 OffHeapMemoryMode 구성 값과 일치시킵니다.
    • SPARK-44878 캐시 완료에 대한 삽입 예외를 방지하기 위해 RocksDB 쓰기 관리자에 대한 엄격한 제한을 비활성화했습니다.
    • 기타 파일.
  • 2023년 8월 30일
    • [SPARK-44871] `percentile_disc 동작이 수정되었습니다.
    • [SPARK-44714] 쿼리에 대한 LCA 확인의 제한이 완화됩니다.
    • [SPARK-44245] PySpark.sql.dataframe sample() 문서 테스트는 이제 설명 전용입니다.
    • [SPARK-44818] taskThread이 초기화되기 전에 실행된 보류 중인 작업 중단에 대한 경합이 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 8월 15일
    • [SPARK-44485] TreeNode.generateTreeString를 최적화합니다.
    • [SPARK-44643] 행이 비어 있는 경우 Row.__repr__를 수정했습니다.
    • [SPARK-44504] 이제 유지 관리 작업은 중지 오류 발생시 로드된 공급자를 정리합니다.
    • [SPARK-44479] 빈 구조체 형식에서의 protobuf 변환이 수정되었습니다.
    • [SPARK-44464] applyInPandasWithStatePythonRunner가 첫 번째 열 값으로 Null이 있는 출력 행으로 수정되었습니다.
    • 기타 파일.
  • 2023년 7월 27일
    • 다른 외부 또는 관리되는 스토리지 위치와 충돌하는 스토리지 위치 경로를 호출할 때 dbutils.fs.ls()에서 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP가 반환되는 문제를 수정했습니다.
    • [SPARK-44199] CacheManager가 더 이상 불필요하게 fileIndex를 새로 고치지 않습니다.
    • [SPARK-44448] DenseRankLimitIteratorInferWindowGroupLimit에서 잘못된 결과 버그가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 7월 24일
    • 되돌리기 [SPARK-42323].
    • [SPARK-41848] TaskResourceProfile을 사용한 작업 예약 초과 문제가 해결되었습니다.
    • [SPARK-44136] StateManagerFlatMapGroupsWithStateExec에서 드라이버 대신 실행기에서 구체화되는 문제를 해결했습니다.
    • [SPARK-44337] Any.getDefaultInstance로 설정되어 구문 분석 오류가 발생하는 필드가 있는 문제를 해결했습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 27일
    • 운영 체제 보안 업데이트.
  • 2023년 6월 15일
    • approx_count_distinct를 광자화했습니다.
    • failOnUnknownFields 모드의 JSON 파서는 이제 DROPMALFORMED 모드에서 레코드를 삭제하고 FAILFAST 모드에서 바로 실패합니다.
    • Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
    • PubSubRecord 특성 필드는 보다 간단한 serialization 및 역직렬화를 위해 Scala 맵의 문자열 대신 JSON으로 저장됩니다.
    • 이제 EXPLAIN EXTENDED 명령은 쿼리의 결과 캐시 자격을 반환합니다.
    • SHALLOW CLONE Iceberg 및 Parquet을 사용하여 증분 업데이트의 성능을 향상시킵니다.
    • [SPARK-43032] Python SQM 버그 수정.
    • [SPARK-43404] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
    • [SPARK-43340] eventlogs에서 누락된 스택 추적 필드를 처리합니다.
    • [SPARK-43527] PySpark에서 catalog.listCatalogs가 수정되었습니다.
    • [SPARK-43541] 식 및 누락된 열을 확인할 때 모든 Project 태그를 전파합니다.
    • [SPARK-43300] Guava Cache에 대한 NonFateSharingCache 래퍼입니다.
    • [SPARK-43378] deserializeFromChunkedBuffer에서 스트림 개체를 제대로 닫습니다.
    • [SPARK-42852] EquivalentExpressions에서 NamedLambdaVariable 관련 변경 내용을 되돌렸습니다.
    • [SPARK-43779] ParseToDate이 이제 주 스레드에서 EvalMode를 로드합니다.
    • [SPARK-43413] IN 하위 쿼리 ListQuery null 허용 여부를 수정합니다.
    • [SPARK-43889] 오류가 발생하기 쉬운 열 이름을 필터링하기 위해 __dir__()에 대한 열 이름 확인을 추가합니다.
    • [SPARK-43043] MapOutputTracker.updateMapOutput의 성능 향상
    • [SPARK-43522] 배열 인덱스를 사용하여 구조체 열 이름을 만드는 문제가 수정되었습니다.
    • [SPARK-43457] OS, Python 및 Spark 버전을 사용하는 Augument 사용자 에이전트입니다.
    • [SPARK-43286] 임의 IV를 생성하도록 aes_encrypt CBC 모드가 업데이트 되었습니다.
    • [SPARK-42851] supportedExpression()를 사용하여 EquivalentExpressions.addExpr()를 보호합니다.
    • 되돌리기 [SPARK-43183].
    • 운영 체제 보안 업데이트.

Databricks Runtime 12.2 LTS

Databricks Runtime 12.2 LTS을 참조하세요.

  • 2023년 11월 29일
    • JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업에서 이스케이프된 밑줄이 와일드카드로 잘못 해석되는 문제를 해결했습니다.
    • [SPARK-42205] StageTask 시작 이벤트의 accumulables 로깅을 제거했습니다.
    • [SPARK-44846] RemoveRedundantAggregates 뒤의 복합 그룹화 식이 제거되었습니다.
    • [SPARK-43718] USING 조인의 키에 대한 null 허용 여부가 수정되었습니다.
    • [SPARK-45544] TransportContext에 대한 SSL 지원이 통합되었습니다.
    • [SPARK-43973] 이제 구조적 스트리밍 UI가 실패한 쿼리를 올바르게 표시합니다.
    • [SPARK-45730] ReloadingX509TrustManagerSuite에 대한 시간 제약 조건이 개선되었습니다.
    • [SPARK-45859] UDF 개체를 ml.functions 지연으로 만들었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 11월 14일
    • 더 나은 사용률을 달성하기 위해 속도 제한 전에 Delta Lake 스트리밍 쿼리의 파티션 필터가 푸시다운됩니다.
    • [SPARK-45545] SparkTransportConf는 생성 시 SSLOptions을 상속합니다.
    • [SPARK-45427] SSLOptionsSparkTransportConf에 RPC SSL 설정이 추가되었습니다.
    • [SPARK-45584] TakeOrderedAndProjectExec를 사용하여 하위 쿼리 실행 실패를 수정했습니다.
    • [SPARK-45541] SSLFactory가 추가되었습니다.
    • [SPARK-45430] FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount의 경우 더 이상 실패하지 않습니다.
    • [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 10월 24일
    • [SPARK-45426] ReloadingX509TrustManager에 대한 지원이 추가되었습니다.
    • 기타 파일.
  • 2023년 10월 13일
    • Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
    • [SPARK-42553] 간격 후에 하나 이상의 시간 단위를 확인합니다.
    • [SPARK-45346] Parquet 스키마 유추는 스키마를 병합할 때 대/소문자를 구분하는 플래그를 적용합니다.
    • [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본이 있는 Trigger.AvailableNow에 대해 단일 일괄 처리를 실행하는 것으로 대체합니다.
    • [SPARK-45084] StateOperatorProgress가 정확하고 적절한 순서 섞기 파티션 번호를 사용합니다.
  • 2023년 9월 12일
    • [SPARK-44873] Hive 클라이언트에서 중첩된 열에 대한 alter view 지원이 추가되었습니다.
    • [SPARK-44718] ColumnVector 메모리 모드 구성 기본값을 OffHeapMemoryMode 구성 값과 일치시킵니다.
    • [SPARK-43799] PySpark Protobuf API에 설명자 이진 옵션이 추가되었습니다.
    • 기타 파일.
  • 2023년 8월 30일
    • [SPARK-44485] TreeNode.generateTreeString를 최적화합니다.
    • [SPARK-44818] taskThread이 초기화되기 전에 실행된 보류 중인 작업 중단에 대한 경합이 수정되었습니다.
    • [SPARK-44871][11.3-13.0] percentile_disc 동작이 수정되었습니다.
    • [SPARK-44714] 쿼리에 대한 LCA 확인의 제한이 완화되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 8월 15일
    • [SPARK-44504] 유지 관리 작업은 중지 오류 발생시 로드된 공급자를 정리합니다.
    • [SPARK-44464] applyInPandasWithStatePythonRunner가 첫 번째 열 값으로 Null이 있는 출력 행으로 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 7월 29일
    • 다른 외부 또는 관리되는 스토리지 위치와 충돌하는 스토리지 위치 경로를 호출할 때 dbutils.fs.ls()에서 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP가 반환되는 문제를 수정했습니다.
    • [SPARK-44199] CacheManager가 더 이상 불필요하게 fileIndex를 새로 고치지 않습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 7월 24일
    • [SPARK-44337] Any.getDefaultInstance로 설정되어 구문 분석 오류가 발생하는 필드가 있는 문제를 해결했습니다.
    • [SPARK-44136] StateManagerFlatMapGroupsWithStateExec에서 드라이버 대신 실행기에서 구체화되는 문제를 해결했습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 23일
    • 운영 체제 보안 업데이트.
  • 2023년 6월 15일
    • approx_count_distinct를 광자화했습니다.
    • Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
    • [SPARK-43779] ParseToDate이 이제 주 스레드에서 EvalMode를 로드합니다.
    • [SPARK-43156][SPARK-43098] decorrelateInnerQuery이 비활성화된 스칼라 하위 쿼리 수 오류 테스트를 확장합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 2일
    • failOnUnknownFields 모드의 JSON 파서는 DROPMALFORMED 모드에서 레코드를 삭제하고 FAILFAST 모드에서 바로 실패합니다.
    • SHALLOW CLONE Iceberg 및 Parquet을 사용하여 증분 업데이트의 성능을 향상시킵니다.
    • 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
    • [SPARK-43404] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
    • [SPARK-43413][11.3-13.0] IN 하위 쿼리 ListQuery null 허용 여부가 수정되었습니다.
    • [SPARK-43522] 배열 인덱스를 사용하여 구조체 열 이름을 만드는 문제가 수정되었습니다.
    • [SPARK-43541] 식 및 누락된 열을 확인할 때 모든 Project 태그를 전파합니다.
    • [SPARK-43527] PySpark에서 catalog.listCatalogs가 수정되었습니다.
    • [SPARK-43123] 내부 필드 메타데이터는 더 이상 카탈로그로 유출되지 않습니다.
    • [SPARK-43340] 이벤트 로그에서 누락된 스택 추적 필드가 수정되었습니다.
    • [SPARK-42444] DataFrame.drop에서 이제 중복된 열을 올바르게 처리합니다.
    • [SPARK-42937] PlanSubqueries이 이제 InSubqueryExec#shouldBroadcast을 true로 설정합니다.
    • [SPARK-43286] 임의 IV를 생성하도록 aes_encrypt CBC 모드가 업데이트 되었습니다.
    • [SPARK-43378] deserializeFromChunkedBuffer에서 스트림 개체를 제대로 닫습니다.
  • 2023년 5월 17일
    • Parquet 검사는 일괄 처리 크기를 동적으로 조정하여 매우 구조화된 파일을 검색할 때 OOM에 대해 강력해졌습니다. 파일 메타데이터는 일괄 처리 크기를 선제적으로 낮추기 위해 분석되며, 작업 재시도 시 최종 안전망으로 다시 낮아집니다.
    • failOnNewColumns\ 스키마 진화 모드에서 failOnUnknownFields\ 옵션 또는 자동 로더를 사용하여 Avro 파일을 읽은 경우 파일을 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열을 null\로 읽습니다. 이러한 읽기는 이제 실패하고 사용자에게 rescuedDataColumn\ 옵션을 사용하도록 권장합니다.
    • 이제 자동 로더가 다음을 수행합니다.
      • Integer, Short, Byte 데이터 형식 중 하나가 제공되면 올바르게 읽고 더 이상 이러한 형식을 구조하지 않지만, Avro 파일은 다른 두 형식 중 하나를 제안합니다.
      • 날짜 또는 타임스탬프 형식으로 읽기 간격 형식을 방지하여 날짜가 손상되지 않도록 합니다.
      • 정밀도가 낮은 읽기 Decimal 형식을 방지합니다.
    • [SPARK-43172] Spark Connect 클라이언트에서 호스트 및 토큰을 노출합니다.
    • [SPARK-43293] __qualified_access_only는 일반 열에서 무시됩니다.
    • [SPARK-43098] 스칼라 하위 쿼리를 절별로 그룹화 할 때 수정 COUNT 버그가 수정되었습니다.
    • [SPARK-43085] 여러 부분으로 구성된 테이블 이름에 대한 열 DEFAULT 할당을 지원합니다.
    • [SPARK-43190] ListQuery.childOutput은 이제 보조 출력과 일치합니다.
    • [SPARK-43192] 사용자 에이전트 문자 집합 유효성 검사가 제거되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 4월 25일
    • failOnNewColumns 스키마 진화 모드에서 failOnUnknownFields 옵션 또는 자동 로더를 사용하여 Parquet 파일을 읽은 경우 파일을 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열을 null로 읽습니다. 이러한 읽기는 이제 실패하고 사용자에게 rescuedDataColumn 옵션을 사용하도록 권장합니다.
    • 이제 자동 로더가 올바르게 읽고 이러한 데이터 형식 중 하나가 제공되면 Integer, Short, Byte 형식을 더 이상 복구 하지 않습니다. Parquet 파일은 다른 두 형식 중 하나를 제안합니다. 이전에 구조된 데이터 열을 사용하도록 설정했을 때 데이터 형식이 일치하지 않으면 열이 읽을 수 있더라도 저장됩니다.
    • [SPARK-43009] Any 상수로 sql()가 매개 변수화
    • [SPARK-42406] 필드를 삭제하여 Protobuf 재귀 필드 종료
    • [SPARK-43038] aes_encrypt()/aes_decrypt()의 CBC 모드 지원
    • [SPARK-42971] 작업자가 workdir 이벤트를 처리할 때 appDirs이 null인 경우 WorkDirCleanup를 인쇄하도록 변경
    • [SPARK-43018] 타임스탬프 리터럴을 사용하여 INSERT 명령에 대한 버그 수정
    • 운영 체제 보안 업데이트.
  • 2023년 4월 11일
    • SYNC 명령에서 레거시 데이터 원본 서식을 지원합니다.
    • 리포지토리 외부의 Notebook에서 %autoreload 동작의 문제를 해결합니다.
    • 중첩된 JSON 개체의 스키마에서 새 열이 검색될 때 자동 로더 스키마 진화가 무한 장애 루프로 전환될 수 있는 문제가 수정되었습니다.
    • [SPARK-42928] resolvePersistentFunction를 동기화합니다.
    • [SPARK-42936] 자식 집계를 통해 절을 직접 해결할 수 있는 경우의 LCan 문제를 해결합니다.
    • [SPARK-42967] 스테이지가 취소된 후 작업이 시작되는 경우 SparkListenerTaskStart.stageAttemptId 수정.
    • 운영 체제 보안 업데이트.
  • 2023년 3월 29일
    • 이제 Databricks SQL은 테이블 생성 시 또는 나중에 Delta Lake 테이블 열에 대한 기본값 지정을 지원합니다. 이후INSERT, UPDATE, DELETE, MERGE 명령은 명시적 DEFAULT 키워드를 사용하여 열의 기본값을 참조할 수 있습니다. 또한 INSERT 할당에 대상 테이블보다 적은 열의 명시적 목록이 있는 경우 해당 열 기본값은 나머지 열(또는 기본값이 지정되지 않은 경우 NULL)으로 대체됩니다.

      예시:

      CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE());
      INSERT INTO t VALUES (0, DEFAULT);
      INSERT INTO t VALUES (1, DEFAULT);
      SELECT first, second FROM t;
      \> 0, 2023-03-28
      1, 2023-03-28z
      
    • 이제 자동 로더는 Trigger.AvailableNow 스트림에 대해 하나 이상의 동기 RocksDB 로그 정리를 시작하여 빠른 실행 자동 로더 스트림에 대한 검사점을 정기적으로 정리할 수 있도록 합니다. 이로 인해 일부 스트림이 종료되기까지 시간이 더 오래 걸릴 수 있지만 스토리지 비용을 절감하고 향후 실행 시 자동 로더 환경을 개선할 수 있습니다.

    • 이제 델타 테이블을 수정하고 DeltaTable.addFeatureSupport(feature_name)을 사용하여 테이블 기능에 지원을 추가할 수 있습니다.

    • [SPARK-42794] 구조 스트리밍에서 RocksDB 상태 저장소를 획득하기 위해 lockAcquireTimeoutMs을 2분으로 늘림

    • [SPARK-42521] 대상 테이블보다 적은 열의 사용자 지정 목록을 사용하는 INSERTs에 NULLs 추가

    • [SPARK-42702][SPARK-42623] 하위 쿼리 및 CTE에서 매개 변수가 있는 쿼리 지원

    • [SPARK-42668] HDFSStateStoreProvider 중단에서 압축 스트림을 닫는 동안 예외 catch

    • [SPARK-42403] JsonProtocol은 null JSON 문자열을 처리해야 함

  • 2023년 3월 8일
    • 고객에게 더 많은 컨텍스트를 제공하기 위해 "구성을 초기화하지 못했습니다"라는 오류 메시지가 개선되었습니다.
    • 테이블 속성을 사용하여 델타 테이블에 기능을 추가하기 위한 용어 변경이 있습니다. 기본 구문은 이제 'delta.feature.featureName'='enabled' 대신 'delta.feature.featureName'='supported'입니다. 이전 버전과의 호환성을 위해 'delta.feature.featureName'='enabled' 사용이 여전히 작동하며 계속 작동합니다.
    • 이 릴리스부터 기본 판독기 및 기록기 버전과 기본적으로 지원되는 테이블 기능을 포함하는 프로토콜 관련 Spark 구성을 무시하기 위해 테이블을 추가 테이블 속성 delta.ignoreProtocolDefaults으로 만들거나 바꿀 수 있습니다.
    • [SPARK-42070] Mask 함수 인수의 기본값을 -1에서 NULL로 변경
    • [SPARK-41793] 큰 소수점에서 범위 절로 정의된 창 프레임의 잘못된 결과
    • [SPARK-42484] UnsafeRowUtils 더 나은 오류 메시지
    • [SPARK-42516] 보기를 만드는 동안 항상 세션 표준 시간대 구성 캡처
    • [SPARK-42635] TimestampAdd 식 수정.
    • [SPARK-42622] 값에서 대체 비활성화
    • [SPARK-42534] DB2Dialect Limit 절 수정
    • [SPARK-42121] 기본 제공 테이블 반환 함수 posexplode, posexplode_outer, json_tuple, 스택 추가
    • [SPARK-42045] ANSI SQL 모드: Round/Bround에서 small/small/significant 정수 오버플로에 대한 오류를 반환해야 함
    • 운영 체제 보안 업데이트.

Databricks Runtime 11.3 LTS

Databricks Runtime 11.3 LTS를 참조하세요.

  • 2023년 11월 29일
    • JDBC 또는 ODBC 클라이언트에서 시작된 getColumns 작업에서 이스케이프된 밑줄이 와일드카드로 잘못 해석되는 문제를 해결했습니다.
    • [SPARK-43973] 이제 구조적 스트리밍 UI가 실패한 쿼리를 올바르게 표시합니다.
    • [SPARK-45730] ReloadingX509TrustManagerSuite에 대한 시간 제약 조건이 개선되었습니다.
    • [SPARK-45544] TransportContext에 대한 SSL 지원이 통합되었습니다.
    • [SPARK-45859] UDF 개체를 ml.functions 지연으로 만들었습니다.
    • [SPARK-43718] USING 조인의 키에 대한 null 허용 여부가 수정되었습니다.
    • [SPARK-44846] RemoveRedundantAggregates 뒤의 복합 그룹화 식이 제거되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 11월 14일
    • 더 나은 사용률을 달성하기 위해 속도 제한 전에 Delta Lake 스트리밍 쿼리의 파티션 필터가 푸시다운됩니다.
    • [SPARK-42205] 작업 및 스테이지 시작 이벤트의 accumulables 로깅을 제거했습니다.
    • [SPARK-45545] SparkTransportConf는 생성 시 SSLOptions을 상속합니다.
    • 되돌리기 [SPARK-33861].
    • [SPARK-45541] SSLFactory가 추가되었습니다.
    • [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
    • [SPARK-45584] TakeOrderedAndProjectExec를 사용하여 하위 쿼리 실행 실패를 수정했습니다.
    • [SPARK-45430] FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount의 경우 더 이상 실패하지 않습니다.
    • [SPARK-45427] SSLOptionsSparkTransportConf에 RPC SSL 설정이 추가되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 10월 24일
    • [SPARK-45426] ReloadingX509TrustManager에 대한 지원이 추가되었습니다.
    • 기타 파일.
  • 2023년 10월 13일
    • Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
    • [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본이 있는 Trigger.AvailableNow에 대해 단일 일괄 처리를 실행하는 것으로 대체합니다.
    • [SPARK-45084] StateOperatorProgress가 정확하고 적절한 순서 섞기 파티션 번호를 사용합니다.
    • [SPARK-45346] 이제 Parquet 스키마 유추는 스키마를 병합할 때 대/소문자를 구분하는 플래그를 적용합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 9월 10일
    • 기타 파일.
  • 2023년 8월 30일
    • [SPARK-44818] taskThread이 초기화되기 전에 실행된 보류 중인 작업 중단에 대한 경합이 수정되었습니다.
    • [SPARK-44871][11.3-13.0] percentile_disc 동작이 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 8월 15일
    • [SPARK-44485] TreeNode.generateTreeString를 최적화합니다.
    • [SPARK-44504] 유지 관리 작업은 중지 오류 발생시 로드된 공급자를 정리합니다.
    • [SPARK-44464] applyInPandasWithStatePythonRunner가 첫 번째 열 값으로 Null이 있는 출력 행으로 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 7월 27일
    • 다른 외부 또는 관리되는 스토리지 위치와 충돌하는 스토리지 위치 경로를 호출할 때 dbutils.fs.ls()에서 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP가 반환되는 문제를 수정했습니다.
    • [SPARK-44199] CacheManager가 더 이상 불필요하게 fileIndex를 새로 고치지 않습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 7월 24일
    • [SPARK-44136] StateManager가 FlatMapGroupsWithStateExec의 드라이버 대신 실행기에서 구체화될 수 있는 문제를 해결했습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 23일
    • 운영 체제 보안 업데이트.
  • 2023년 6월 15일
    • approx_count_distinct를 광자화했습니다.
    • Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
    • [SPARK-43779] ParseToDate이 이제 주 스레드에서 EvalMode를 로드합니다.
    • [SPARK-40862] RewriteCorrelatedScalarSubquery에서 집계되지 않은 하위 쿼리 지원
    • [SPARK-43156][SPARK-43098] decorrelateInnerQuery이 비활성화된 스칼라 하위 쿼리 수 버그 테스트를 확장합니다.
    • [SPARK-43098] 스칼라 하위 쿼리에 group by 절이 있는 경우 정확성 COUNT 버그 수정
    • 운영 체제 보안 업데이트.
  • 2023년 6월 2일
    • failOnUnknownFields 모드의 JSON 파서는 DROPMALFORMED 모드에서 레코드를 삭제하고 FAILFAST 모드에서 바로 실패합니다.
    • SHALLOW CLONE Iceberg 및 Parquet을 사용하여 증분 업데이트의 성능을 향상시킵니다.
    • 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
    • [SPARK-43404] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
    • [SPARK-43527] PySpark에서 catalog.listCatalogs가 수정되었습니다.
    • [SPARK-43413][11.3-13.0] IN 하위 쿼리 ListQuery null 허용 여부가 수정되었습니다.
    • [SPARK-43340] 이벤트 로그에서 누락된 스택 추적 필드가 수정되었습니다.

Databricks Runtime 10.4 LTS

Databricks Runtime 10.4 LTS를 참조하세요.

  • 2023년 11월 29일
    • [SPARK-45544] TransportContext에 대한 SSL 지원이 통합되었습니다.
    • [SPARK-45859] UDF 개체를 ml.functions 지연으로 만들었습니다.
    • [SPARK-43718] USING 조인의 키에 대한 null 허용 여부가 수정되었습니다.
    • [SPARK-45730] ReloadingX509TrustManagerSuite에 대한 시간 제약 조건이 개선되었습니다.
    • [SPARK-42205] 작업 및 스테이지 시작 이벤트의 accumulables 로깅을 제거했습니다.
    • [SPARK-44846] RemoveRedundantAggregates 뒤의 복합 그룹화 식이 제거되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 11월 14일
    • [SPARK-45541] SSLFactory가 추가되었습니다.
    • [SPARK-45545] SparkTransportConf는 생성 시 SSLOptions을 상속합니다.
    • [SPARK-45427] SSLOptionsSparkTransportConf에 RPC SSL 설정이 추가되었습니다.
    • [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
    • [SPARK-45584] TakeOrderedAndProjectExec를 사용하여 하위 쿼리 실행 실패를 수정했습니다.
    • 되돌리기 [SPARK-33861].
    • 운영 체제 보안 업데이트.
  • 2023년 10월 24일
    • [SPARK-45426] ReloadingX509TrustManager에 대한 지원이 추가되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 10월 13일
    • [SPARK-45084] StateOperatorProgress가 정확하고 적절한 순서 섞기 파티션 번호를 사용합니다.
    • [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본이 있는 Trigger.AvailableNow에 대해 단일 일괄 처리를 실행하는 것으로 대체합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 9월 10일
    • 기타 파일.
  • 2023년 8월 30일
    • [SPARK-44818] taskThread이 초기화되기 전에 실행된 보류 중인 작업 중단에 대한 경합이 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 8월 15일
    • [SPARK-44504] 유지 관리 작업은 중지 오류 발생시 로드된 공급자를 정리합니다.
    • [SPARK-43973] 이제 구조적 스트리밍 UI가 실패한 쿼리를 올바르게 표시합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 23일
    • 운영 체제 보안 업데이트.
  • 2023년 6월 15일
    • Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
    • [SPARK-43098] 스칼라 하위 쿼리에 group by 절이 있는 경우 정확성 COUNT 버그 수정
    • [SPARK-40862] RewriteCorrelatedScalarSubquery에서 집계되지 않은 하위 쿼리 지원
    • [SPARK-43156][SPARK-43098] decorrelateInnerQuery이 비활성화된 스칼라 하위 쿼리 수 테스트를 확장합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 2일
    • failOnUnknownFields 모드의 JSON 파서는 DROPMALFORMED 모드에서 레코드를 삭제하고 FAILFAST 모드에서 바로 실패합니다.
    • UnknownFieldException를 방지하기 위해 JSON에서 복구된 데이터를 구문 분석하는 문제를 해결했습니다.
    • 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
    • [SPARK-43404] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
    • [SPARK-43413] IN 하위 쿼리 ListQuery null 허용 여부가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 5월 17일
    • Parquet 검사는 일괄 처리 크기를 동적으로 조정하여 매우 구조화된 파일을 검색할 때 OOM에 대해 강력해졌습니다. 파일 메타데이터는 일괄 처리 크기를 선제적으로 낮추기 위해 분석되며, 작업 재시도 시 최종 안전망으로 다시 낮아집니다.
    • [SPARK-41520] AND_OR 트리 패턴을 분할하여 ANDOR를 구분합니다.
    • [SPARK-43190] ListQuery.childOutput은 이제 보조 출력과 일치합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 4월 25일
    • [SPARK-42928] resolvePersistentFunction를 동기화합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 4월 11일
    • 중첩된 JSON 개체의 스키마에서 새 열이 검색될 때 자동 로더 스키마 진화가 무한 장애 루프로 전환될 수 있는 문제가 수정되었습니다.
    • [SPARK-42937] PlanSubqueries이 이제 InSubqueryExec#shouldBroadcast을 true로 설정합니다.
    • [SPARK-42967] 스테이지가 취소된 후 작업이 시작될 때 SparkListenerTaskStart.stageAttemptId를 수정합니다.
  • 2023년 3월 29일
    • [SPARK-42668] HDFSStateStoreProvider 중단에서 압축 스트림을 닫는 동안 예외 catch
    • [SPARK-42635] … 수정
    • 운영 체제 보안 업데이트.
  • 2023년 3월 14일
    • [SPARK-41162] 집계를 사용하여 셀프 조인에 대한 안티 및 세미 조인 수정
    • [SPARK-33206] 작은 인덱스 파일에 대한 순서 섞기 인덱스 캐시 가중치 계산 수정
    • [SPARK-42484] UnsafeRowUtils 오류 메시지 개선
    • 기타 파일.
  • 2023년 2월 28일
    • yyyy-MM-dd date_format에 대해 생성된 열을 지원합니다. 이 변경은 생성된 열의 date_format으로 yyyy-MM-dd에 대한 파티션 정리를 지원합니다.
    • 이제 사용자는 Databricks Runtime 9.1 LTS 이상을 사용하여 판독기 버전 3 및 기록기 버전 7이 필요한 특정 델타 테이블을 읽고 쓸 수 있습니다. 성공하려면 테이블 프로토콜에 나열된 테이블 기능이 현재 버전의 Databricks Runtime에서 지원되어야 합니다.
    • yyyy-MM-dd date_format에 대해 생성된 열을 지원합니다. 이 변경은 생성된 열의 date_format으로 yyyy-MM-dd에 대한 파티션 정리를 지원합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 2월 16일
    • [SPARK-30220] 필터 노드 외부의 Exists/In 하위 쿼리 사용 설정
    • 운영 체제 보안 업데이트.
  • 2023년 1월 31일
    • JDBC 테이블의 테이블 형식은 이제 기본적으로 EXTERNAL입니다.
  • 2023년 1월 18일
    • 열 이름에 공백 또는 세미콜론과 같은 잘못된 캐릭터가 포함된 경우 Azure Synapse 커넥터는 설명을 포함하는 오류 메시지를 반환합니다. 이러한 경우 다음 메시지가 반환됩니다. Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
    • [SPARK-38277] RocksDB 상태 저장소 커밋 후 쓰기 일괄 처리 지우기
    • [SPARK-41199] DSv1 스트리밍 원본 및 DSv2 스트리밍 원본이 공동으로 사용되는 경우 메트릭 문제 해결
    • [SPARK-41198] CTE 및 DSv1 스트리밍 원본이 있는 스트리밍 쿼리의 메트릭 수정
    • [SPARK-41339] 단순히 지우는 대신 RocksDB 쓰기 일괄 처리를 닫고 다시 생성
    • [SPARK-41732] SessionWindowing 규칙에 트리 패턴 기반 정리 적용
    • 운영 체제 보안 업데이트.
  • 2022년 11월 29일
    • 사용자는 Redshift 커넥터를 사용하여 데이터를 작성할 때 선행 및 후행 공백의 동작을 구성할 수 있습니다. 공백 처리를 제어하기 위해 다음 옵션이 추가되었습니다.
      • true로 설정하면 csvignoreleadingwhitespacetempformatCSV 또는 CSV GZIP로 설정된 경우 쓰기 중 값에서 선행 공백을 제거합니다. 구성을 false로 설정하면 공백이 유지됩니다. 기본적으로 값은 true입니다.
      • true로 설정하면 csvignoretrailingwhitespacetempformatCSV 또는 CSV GZIP로 설정된 경우 쓰기 중 값에서 후행 공백을 제거합니다. 구성을 false로 설정하면 공백이 유지됩니다. 기본적으로 값은 true입니다.
    • 모든 열이 문자열(cloudFiles.inferColumnTypesfalse로 설정되거나 설정되지 않음)으로 남아 있고 JSON에 중첩된 개체가 포함된 경우 자동 로더에서 JSON 구문 분석 문제가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 11월 15일
    • Apache commons-text를 1.10.0으로 업그레이드했습니다.
    • [SPARK-40646] 구조체, 맵 및 배열에 대한 JSON 구문 분석이 수정되었으므로 레코드의 일부가 스키마와 일치하지 않는 경우 null을 반환하는 대신 나머지 레코드를 올바르게 구문 분석할 수 있습니다. 향상된 동작을 옵트인하려면 spark.sql.json.enablePartialResultstrue로 설정합니다. 플래그는 원래 동작을 유지하기 위해 기본적으로 비활성화됩니다.
    • [SPARK-40292] 중첩된 구조체에서 배열이 참조될 때 arrays_zip 함수의 열 이름 수정
    • 운영 체제 보안 업데이트.
  • 2022년 11월 1일
    • Delta 테이블에 _change_type라는 사용자 정의 열이 있지만 해당 테이블에서 데이터 피드 변경이 비활성화된 경우 MERGE를 실행할 때 해당 열의 데이터가 NULL 값으로 잘못 채워지는 문제를 해결했습니다.
    • allowOverwrites가 사용하도록 설정된 경우 동일한 마이크로 일괄 처리에서 파일을 복제할 수 있는 자동 로더 문제를 해결했습니다.
    • [SPARK-40697] 외부 데이터 파일을 커버하는 읽기 쪽 char 패딩 추가
    • [SPARK-40596] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
    • 운영 체제 보안 업데이트.
  • 2022년 10월 18일
    • 운영 체제 보안 업데이트.
  • 2022년 10월 5일
    • [SPARK-40468] _corrupt_record가 선택될 때 CSV에서 열 삭제 수정.
    • 운영 체제 보안 업데이트.
  • 2022년 9월 22일
    • 사용자는 spark.conf.set(spark.databricks.io.listKeysWithPrefix.azure.enabled, true)를 설정하여 ADLS Gen2에서 자동 로더에 대한 기본 제공 목록을 다시 사용하도록 설정할 수 있습니다. 기본 제공 목록은 이전에 성능 문제로 인해 꺼졌지만 고객의 스토리지 비용이 증가했을 수 있습니다.
    • [SPARK-40315] ArrayBasedMapData의 리터럴에 해시코드() 추가
    • [SPARK-40213] 라틴어-1 문자에 대한 ASCII 값 변환 지원
    • [SPARK-40380] 계획에 직렬화할 수 없는 리터럴이 포함되지 않도록 InvokeLike의 상수 폴딩 수정
    • [SPARK-38404] 중첩된 CTE가 외부 CTE를 참조할 때 CTE 해상도 개선
    • [SPARK-40089] 일부 10진수 형식에 대한 정렬 수정
    • [SPARK-39887] RemoveRedundantAliases는 프로젝션 노드의 출력을 고유하게 만드는 별칭을 유지해야 함
  • 2022년 9월 6일
    • [SPARK-40235] Executor.updateDependencies()에서 동기화되는 대신 인터럽트 가능한 잠금 사용
    • [SPARK-40218] GROUPING SETS는 그룹화 열을 유지해야 함
    • [SPARK-39976] ArrayIntersect에서 왼쪽 식의 null을 올바르게 처리해야 함
    • [SPARK-40053] Python 런타임 환경이 필요한 동적 취소 사례에 assume 추가
    • [SPARK-35542] 수정: 매개 변수 splitsArray, inputCols 및 outputCols가 있는 여러 열에 대해 만들어진 버킷타이저를 저장 후 로드할 수 없음
    • [SPARK-40079] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사 추가
  • 2022년 8월 24일
    • [SPARK-39983] 드라이버에서 직렬화되지 않은 브로드캐스트 관계를 캐시하지 않음
    • [SPARK-39775] Avro 스키마를 구문 분석할 때 기본값 유효성 검사 사용 안 함
    • [SPARK-39962] 그룹 특성이 비어 있는 경우 프로젝션 적용
    • [SPARK-37643] charVarcharAsString이 true이면 for char datatype 조건자 쿼리에서 rpadding 규칙을 건너뛰어야 합니다.
    • 운영 체제 보안 업데이트.
  • 2022년 8월 9일
    • [SPARK-39847] 호출자 스레드가 중단된 경우 RocksDBLoader.loadLibrary()에서 경합 상태 수정
    • [SPARK-39731] CORRECTED 시간 파서 정책을 사용하여 날짜를 “yyyyMMdd” 형식으로 구문 분석할 때 CSV 및 JSON 데이터 원본의 문제 해결
    • 운영 체제 보안 업데이트.
  • 2022년 7월 27일
    • [SPARK-39625] Dataset.as(StructType) 추가
    • [SPARK-39689] CSV 데이터 원본에서 2자 lineSep 지원
    • [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded는 스레드로부터 안전해야 함
    • [SPARK-39570] 인라인 테이블은 별칭이 있는 식을 허용해야 함
    • [SPARK-39702] 공유 byteRawChannel을 사용하여 TransportCipher$EncryptedMessage의 메모리 오버헤드 줄이기
    • [SPARK-39575] AvroDeserializer에서 ByteBuffer#get 다음에 ByteBuffer#rewind 추가
    • [SPARK-39476] Long에서 Float/Double로 또는 정수에서 Float로 캐스팅할 때 래핑 해제 캐스트 최적화 사용 안 함
    • [SPARK-38868] 외부 조인을 최적화할 때 필터 조건자에서 예외를 전파하지 않음
    • 운영 체제 보안 업데이트.
  • 2022년 7월 20일
    • 원본이 비결정적일 때 Delta MERGE 작업 결과를 일관되게 만듭니다.
    • [SPARK-39355] 단일 열은 따옴표를 사용하여 UnresolvedAttribute를 구성
    • [SPARK-39548] 창 절 쿼리가 있는 CreateView 명령에서 잘못된 창 정의를 찾을 수 없음 문제 발생
    • [SPARK-39419] 비교자가 null을 반환할 때 예외를 throw하도록 ArraySort 수정
    • Azure에서 디렉터리 목록에 대해 자동 로더가 기본 제공 클라우드 API를 사용하는 것을 비활성화했습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 7월 5일
    • [SPARK-39376] NATURAL/USING JOIN에서 하위 쿼리 별칭의 별 확장에서 중복 열 숨기기
    • 운영 체제 보안 업데이트.
  • 2022년 6월 15일
    • [SPARK-39283] TaskMemoryManager와 UnsafeExternalSorter.SpillableIterator 간의 교착 상태 수정
    • [SPARK-39285] Spark는 파일을 읽을 때 필드 이름을 확인하지 않아야 합니다.
    • [SPARK-34096] 오프셋 창에서 null을 무시하는 nth_value의 성능 향상
    • [SPARK-36718] CollapseProject에서 isExtractOnly 확인 수정
  • 2022년 6월 2일
    • [SPARK-39093] 연월 간격 또는 일시 간격을 정수로 나눌 때 코드 생성 컴파일 오류 방지
    • [SPARK-38990] date_trunc/trunc 형식을 바인딩된 참조로 평가할 때 NullPointerException 방지
    • 운영 체제 보안 업데이트.
  • 2022년 5월 18일
    • 자동 로더에서 잠재적인 기본 제공 메모리 누수를 수정합니다.
    • [SPARK-38918] 중첩 열 정리는 현재 관계에 속하지 않는 특성을 필터링함
    • [SPARK-37593] G1GC 및 ON_HEAP이 사용되는 경우 LONG_ARRAY_OFFSET으로 기본 페이지 크기 축소
    • [SPARK-39084] 작업 완료 시 반복기를 중지하도록 TaskContext를 사용하여 df.rdd.isEmpty() 수정
    • [SPARK-32268] injectBloomFilter에 ColumnPruning 추가
    • [SPARK-38974] 목록 함수에서 지정된 데이터베이스 이름으로 등록된 함수 필터링
    • [SPARK-38931] 첫 번째 검사점에서 알 수 없는 수의 키를 사용하여 RocksDBFileManager에 대한 루트 dfs 디렉터리 만들기
    • 운영 체제 보안 업데이트.
  • 2022년 4월 19일
    • Java AWS SDK를 버전 1.11.655에서 1.12.1899로 업그레이드했습니다.
    • 일괄 스트리밍 작업에서 Notebook 범위 라이브러리가 작동하지 않는 문제를 해결했습니다.
    • [SPARK-38616] Catalyst TreeNode에서 SQL 쿼리 텍스트 추적
    • 운영 체제 보안 업데이트.
  • 2022년 4월 6일
    • 이제 이 릴리스에서 다음 Spark SQL 함수를 사용할 수 있습니다.
      • timestampadd()dateadd(): 타임스탬프 식에 지정된 단위의 시간 기간을 추가합니다.
      • timestampdiff()datediff(): 지정된 단위에서 두 타임스탬프 식 사이의 시간 차이를 계산합니다.
    • Parquet-MR이 1.12.2로 업그레이드되었습니다.
    • parquet 파일의 광범위한 스키마에 대한 지원 개선
    • [SPARK-38631] Utils.unpack에서 un-tarring에 Java 기반 구현 사용
    • [SPARK-38509][SPARK-38481] 세 가지 timestmapadd/diff 변경 내용 Cherry-pick.
    • [SPARK-38523] CSV에서 손상된 레코드 열 참조 수정
    • [SPARK-38237] ClusteredDistribution의 전체 클러스터링 키 요구 허용
    • [SPARK-38437] 데이터 원본에서 datetime의 Lenient serialization
    • [SPARK-38180] 상관 관계가 있는 같음 조건자에서 안전한 업캐스트 식 허용
    • [SPARK-38155] 지원되지 않는 조건자를 사용하여 횡적 하위 쿼리에서 고유 집계 허용 안 함
    • 운영 체제 보안 업데이트.

Databricks Runtime 9.1 LTS

Databricks Runtime 9.1 LTS를 참조하세요.

  • 2023년 11월 29일
    • [SPARK-45859] UDF 개체를 ml.functions 지연으로 만들었습니다.
    • [SPARK-45544] TransportContext에 대한 SSL 지원이 통합되었습니다.
    • [SPARK-45730] ReloadingX509TrustManagerSuite에 대한 시간 제약 조건이 개선되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 11월 14일
    • [SPARK-45545] SparkTransportConf는 생성 시 SSLOptions을 상속합니다.
    • [SPARK-45429] SSL RPC 통신을 위한 도우미 클래스가 추가되었습니다.
    • [SPARK-45427] SSLOptionsSparkTransportConf에 RPC SSL 설정이 추가되었습니다.
    • [SPARK-45584] TakeOrderedAndProjectExec를 사용하여 하위 쿼리 실행 실패를 수정했습니다.
    • [SPARK-45541] SSLFactory가 추가되었습니다.
    • [SPARK-42205] 작업 및 스테이지 시작 이벤트의 accumulables 로깅을 제거했습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 10월 24일
    • [SPARK-45426] ReloadingX509TrustManager에 대한 지원이 추가되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 10월 13일
    • 운영 체제 보안 업데이트.
  • 2023년 9월 10일
    • 기타 파일.
  • 2023년 8월 30일
    • 운영 체제 보안 업데이트.
  • 2023년 8월 15일
    • 운영 체제 보안 업데이트.
  • 2023년 6월 23일
    • Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 15일
    • [SPARK-43098] 스칼라 하위 쿼리에 group by 절이 있는 경우 정확성 COUNT 버그 수정
    • [SPARK-43156][SPARK-43098] decorrelateInnerQuery이 비활성화된 스칼라 하위 쿼리 수 버그 테스트를 확장합니다.
    • [SPARK-40862] RewriteCorrelatedScalarSubquery에서 집계되지 않은 하위 쿼리 지원
    • 운영 체제 보안 업데이트.
  • 2023년 6월 2일
    • failOnUnknownFields 모드의 JSON 파서는 DROPMALFORMED 모드에서 레코드를 삭제하고 FAILFAST 모드에서 바로 실패합니다.
    • UnknownFieldException를 방지하기 위해 JSON에서 복구된 데이터를 구문 분석하는 문제를 해결했습니다.
    • 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
    • [SPARK-37520] startswith()endswith() 문자열 함수 추가
    • [SPARK-43413] IN 하위 쿼리 ListQuery null 허용 여부가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 5월 17일
    • 운영 체제 보안 업데이트.
  • 2023년 4월 25일
    • 운영 체제 보안 업데이트.
  • 2023년 4월 11일
    • 중첩된 JSON 개체의 스키마에서 새 열이 검색될 때 자동 로더 스키마 진화가 무한 장애 루프로 전환될 수 있는 문제가 수정되었습니다.
    • [SPARK-42967] 스테이지가 취소된 후 작업이 시작될 때 SparkListenerTaskStart.stageAttemptId를 수정합니다.
  • 2023년 3월 29일
    • 운영 체제 보안 업데이트.
  • 2023년 3월 14일
    • [SPARK-42484] UnsafeRowUtils에 대한 오류 메시지가 개선되었습니다.
    • 기타 파일.
  • 2023년 2월 28일
    • 이제 사용자는 Databricks Runtime 9.1 LTS 이상을 사용하여 판독기 버전 3 및 기록기 버전 7이 필요한 특정 델타 테이블을 읽고 쓸 수 있습니다. 성공하려면 테이블 프로토콜에 나열된 테이블 기능이 현재 버전의 Databricks Runtime에서 지원되어야 합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 2월 16일
    • 운영 체제 보안 업데이트.
  • 2023년 1월 31일
    • JDBC 테이블의 테이블 형식은 이제 기본적으로 EXTERNAL입니다.
  • 2023년 1월 18일
    • 운영 체제 보안 업데이트.
  • 2022년 11월 29일
    • 모든 열이 문자열(cloudFiles.inferColumnTypesfalse로 설정되거나 설정되지 않음)으로 남아 있고 JSON에 중첩된 개체가 포함된 경우 자동 로더에서 JSON 구문 분석 문제가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 11월 15일
    • Apache commons-text를 1.10.0으로 업그레이드했습니다.
    • 운영 체제 보안 업데이트.
    • 기타 파일.
  • 2022년 11월 1일
    • Delta 테이블에 _change_type라는 사용자 정의 열이 있지만 해당 테이블에서 데이터 피드 변경이 비활성화된 경우 MERGE를 실행할 때 해당 열의 데이터가 NULL 값으로 잘못 채워지는 문제를 해결했습니다.
    • allowOverwrites가 사용하도록 설정된 경우 동일한 마이크로 일괄 처리에서 파일을 복제할 수 있는 자동 로더 문제를 해결했습니다.
    • [SPARK-40596] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
    • 운영 체제 보안 업데이트.
  • 2022년 10월 18일
    • 운영 체제 보안 업데이트.
  • 2022년 10월 5일
    • 기타 파일.
    • 운영 체제 보안 업데이트.
  • 2022년 9월 22일
    • 사용자는 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")를 설정하여 ADLS Gen2에서 자동 로더에 대한 기본 제공 목록을 다시 사용하도록 설정할 수 있습니다. 기본 제공 목록은 이전에 성능 문제로 인해 꺼졌지만 고객의 스토리지 비용이 증가했을 수 있습니다.
    • [SPARK-40315] ArrayBasedMapData의 리터럴에 해시코드() 추가
    • [SPARK-40089] 일부 10진수 형식에 대한 정렬 수정
    • [SPARK-39887] RemoveRedundantAliases는 프로젝션 노드의 출력을 고유하게 만드는 별칭을 유지해야 함
  • 2022년 9월 6일
    • [SPARK-40235] Executor.updateDependencies()에서 동기화되는 대신 인터럽트 가능한 잠금 사용
    • [SPARK-35542] 수정: 매개 변수 splitsArray, inputCols 및 outputCols가 있는 여러 열에 대해 만들어진 버킷타이저를 저장 후 로드할 수 없음
    • [SPARK-40079] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사 추가
  • 2022년 8월 24일
    • [SPARK-39666] UnsafeProjection.create를 사용하여 ExpressionEncoder에 spark.sql.codegen.factoryMode 적용
    • [SPARK-39962] 그룹 특성이 비어 있는 경우 프로젝션 적용
    • 운영 체제 보안 업데이트.
  • 2022년 8월 9일
    • 운영 체제 보안 업데이트.
  • 2022년 7월 27일
    • 원본이 비결정적일 때 Delta MERGE 작업 결과를 일관되게 만듭니다.
    • [SPARK-39689] CSV 데이터 원본에서 2자 lineSep 지원
    • [SPARK-39575] AvroDeserializerByteBuffer#get 후에 ByteBuffer#rewind를 추가했습니다.
    • [SPARK-37392] 촉매 최적화 프로그램의 성능 오류를 수정했습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 7월 13일
    • [SPARK-39419] 비교자가 null을 반환할 때 ArraySort가 예외를 throw
    • Azure에서 디렉터리 목록에 대해 자동 로더가 기본 제공 클라우드 API를 사용하는 것을 비활성화했습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 7월 5일
    • 운영 체제 보안 업데이트.
    • 기타 파일.
  • 2022년 6월 15일
    • [SPARK-39283] TaskMemoryManagerUnsafeExternalSorter.SpillableIterator 사이의 교착 상태를 수정했습니다.
  • 2022년 6월 2일
    • [SPARK-34554] ColumnarMap에서 copy() 메서드를 구현합니다.
    • 운영 체제 보안 업데이트.
  • 2022년 5월 18일
    • 자동 로더에서 잠재적인 기본 제공 메모리 누수를 수정했습니다.
    • AWS SDK 버전을 1.11.655에서 1.11.678로 업그레이드합니다.
    • [SPARK-38918] 중첩 열 정리는 현재 관계에 속하지 않는 특성을 필터링함
    • [SPARK-39084] 작업 완료 시 반복기를 중지하는 TaskContext을 사용하여 df.rdd.isEmpty() 수정
    • 운영 체제 보안 업데이트.
  • 2022년 4월 19일
    • 운영 체제 보안 업데이트.
    • 기타 파일.
  • 2022년 4월 6일
    • [SPARK-38631] Utils.unpack에서 un-tarring에 Java 기반 구현 사용
    • 운영 체제 보안 업데이트.
  • 2022년 3월 22일
    • 테이블 액세스 제어 또는 자격 증명 통과를 사용하도록 설정한 높은 동시성 클러스터에서 Notebook의 현재 작업 디렉터리는 이제 사용자의 홈 디렉터리입니다. 이전에는 Active Directory가 /databricks/driver였습니다.
    • [SPARK-38437] 데이터 원본에서 datetime의 Lenient serialization
    • [SPARK-38180] 상관 관계가 있는 같음 조건자에서 안전한 업캐스트 식 허용
    • [SPARK-38155] 지원되지 않는 조건자를 사용하여 횡적 하위 쿼리에서 고유 집계 허용 안 함
    • [SPARK-27442] parquet에서 데이터를 읽고 쓸 때 확인 필드를 제거했습니다.
  • 2022년 3월 14일
    • [SPARK-38236] create/alter table에 지정된 절대 파일 경로는 상대 경로로 처리됩니다.
    • [SPARK-34069] 로컬 속성 SPARK_JOB_INTERRUPT_ON_CANCEL이 true로 설정된 경우 작업 스레드를 중단합니다.
  • 2022년 2월 23일
    • [SPARK-37859] Spark 3.1에서 JDBC로 만들어진 SQL 테이블을 Spark 3.2에서 읽을 수 없는 문제가 수정되었습니다.
  • 2022년 2월 8일
    • [SPARK-27442] parquet에서 데이터를 읽고 쓸 때 확인 필드를 제거했습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 2월 1일
    • 운영 체제 보안 업데이트.
  • 2022년 1월 26일
    • Delta 테이블의 동시 트랜잭션이 특정 드문 조건에서 직렬화할 수 없는 순서로 커밋될 수 있는 문제가 수정되었습니다.
    • ANSI SQL 언어가 사용하도록 설정된 경우 OPTIMIZE 명령이 실패할 수 있는 문제가 수정되었습니다.
  • 2022년 1월 19일
    • 사소한 수정 및 보안 개선 사항.
    • 운영 체제 보안 업데이트.
  • 2021년 11월 4일
    • ArrayIndexOutOfBoundsException를 사용하여 구조적 스트리밍 스트림이 실패할 수 있는 문제를 해결했습니다.
    • java.io.IOException: No FileSystem for scheme과 같은 IOException으로 쿼리 실패를 일으키거나 sparkContext.hadoopConfiguration에 대한 수정 사항이 쿼리에 적용되지 않을 수 있는 경합 상태가 수정되었습니다.
    • Delta 공유용 Apache Spark 커넥터가 0.2.0으로 업그레이드되었습니다.
  • 2021년 10월 20일
    • BigQuery 커넥터가 0.18.1에서 0.22.2로 업그레이드되었습니다. 이렇게 하면 BigNumeric 형식에 대한 지원이 추가됩니다.

Databricks Runtime 13.0(EoS)

Databricks Runtime 13.0(EoS)을 참조하세요.

  • 2023년 10월 13일

    • Snowflake-jdbc 종속성이 3.13.29에서 3.13.33으로 업그레이드되었습니다.
    • [SPARK-42553][SQL] 간격 후에 하나 이상의 시간 단위를 확인합니다.
    • [SPARK-45178] 래퍼를 사용하는 대신 지원되지 않는 원본이 있는 Trigger.AvailableNow에 대해 단일 일괄 처리를 실행하는 것으로 대체합니다.
    • [SPARK-44658][CORE] ShuffleStatus.getMapStatus에서 Some(null)가 아닌 None을 반환합니다.
    • [SPARK-42205][CORE] JsonProtocol에서 작업/스테이지 시작 이벤트의 Accumulables 로깅을 제거합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 9월 12일

    • [SPARK-44485][SQL] TreeNode.generateTreeString를 최적화합니다.
    • [SPARK-44718][SQL] ColumnVector 메모리 모드 구성 기본값을 OffHeapMemoryMode 구성 값과 일치시킵니다.
    • 기타 버그가 수정되었습니다.
  • 2023년 8월 30일

    • [SPARK-44818][Backport] taskThread이 초기화되기 전에 실행된 보류 중인 작업 중단에 대한 경합이 수정되었습니다.
    • [SPARK-44714] 쿼리에 대한 LCA 확인의 제한이 완화됩니다.
    • [SPARK-44245][PYTHON] pyspark.sql.dataframe sample() doctests는 이제 설명 전용입니다.
    • [SPARK-44871][11.3-13.0][SQL] 고정된 percentile_disc 동작.
    • 운영 체제 보안 업데이트.
  • 2023년 8월 15일

    • [SPARK-44643][SQL] [PYTHON] 행이 비어 있는 경우 Row.__repr__를 수정합니다.
    • [SPARK-44504][Backport] 유지 관리 작업은 중지 오류 발생시 로드된 공급자를 정리합니다.
    • [SPARK-44479][CONNECT][PYTHON] 빈 구조체 형식에서의 protobuf 변환이 수정되었습니다.
    • [SPARK-44464][SS] applyInPandasWithStatePythonRunner가 첫 번째 열 값으로 Null이 있는 출력 행으로 수정되었습니다.
    • 기타 버그가 수정되었습니다.
  • 2023년 7월 29일

    • 다른 외부 또는 관리되는 스토리지 위치와 충돌하는 스토리지 위치 경로를 호출할 때 dbutils.fs.ls()에서 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP가 반환되는 버그를 수정했습니다.
    • [SPARK-44199] CacheManager가 더 이상 불필요하게 fileIndex를 새로 고치지 않습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 7월 24일

    • [SPARK-44337][PROTOBUF] Any.getDefaultInstance로 설정되어 구문 분석 오류가 발생하는 필드가 있는 문제를 해결했습니다.
    • [SPARK-44136] [SS] StateManagerFlatMapGroupsWithStateExec에서 드라이버 대신 실행기에서 구체화되는 문제를 해결했습니다.
    • [SPARK-42323][SQL] 이름을 _LEGACY_ERROR_TEMP_2332에 할당합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 23일

    • 운영 체제 보안 업데이트.
  • 2023년 6월 15일

    • approx_count_distinct를 광자화했습니다.
    • Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
    • [SPARK-43156][SPARK-43098][SQL] decorrelateInnerQuery를 사용하지 않도록 설정하여 스칼라 하위 쿼리 수 버그 테스트 확장
    • [SPARK-43779][SQL] ParseToDate이 이제 주 스레드에서 EvalMode를 로드합니다.
    • [SPARK-42937][SQL] PlanSubqueriesInSubqueryExec#shouldBroadcast을 true로 설정해야 합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 2일

    • failOnUnknownFields 모드의 JSON 파서는 DROPMALFORMED 모드에서 레코드를 삭제하고 FAILFAST 모드에서 바로 실패합니다.
    • SHALLOW CLONE Iceberg 및 Parquet을 사용하여 증분 업데이트의 성능을 향상시킵니다.
    • 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
    • [SPARK-43404][Backport] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
    • [SPARK-43340][CORE] 이벤트 로그에서 누락된 스택 추적 필드가 수정되었습니다.
    • [SPARK-43300][CORE] Guava Cache에 대한 NonFateSharingCache 래퍼입니다.
    • [SPARK-43378][CORE] deserializeFromChunkedBuffer에서 스트림 개체를 제대로 닫습니다.
    • [SPARK-16484][SQL] DataSketches를 나타내는 데 8비트 레지스터를 사용합니다.
    • [SPARK-43522][SQL] 배열 인덱스를 사용하여 구조체 열 이름을 만드는 문제가 수정되었습니다.
    • [SPARK-43413][11.3-13.0][SQL] IN 하위 쿼리 ListQuery null 허용 여부가 수정되었습니다.
    • [SPARK-43043][CORE] MapOutputTracker.updateMapOutput 성능이 향상되었습니다.
    • [SPARK-16484][SQL] DataSketches HllSketch에 대한 지원이 추가되었습니다.
    • [SPARK-43123][SQL] 내부 필드 메타데이터는 더 이상 카탈로그로 유출되지 않습니다.
    • [SPARK-42851][SQL] supportedExpression()를 사용하여 EquivalentExpressions.addExpr()를 보호합니다.
    • [SPARK-43336][SQL] TimestampTimestampNTZ 사이를 캐스팅하려면 표준 시간대가 필요합니다.
    • [SPARK-43286][SQL] 임의 IV를 생성하도록 aes_encrypt CBC 모드가 업데이트 되었습니다.
    • [SPARK-42852][SQL] EquivalentExpressions에서 NamedLambdaVariable 관련 변경 내용을 되돌렸습니다.
    • [SPARK-43541][SQL] 식 및 누락된 열을 확인할 때 모든 Project 태그를 전파합니다.
    • [SPARK-43527][PYTHON] PySpark에서 catalog.listCatalogs가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2023년 5월 31일

    • Unity 카탈로그에 등록된 델타 테이블에 대한 기본 최적화 쓰기 지원이 분할된 테이블에 대한 CTAS 문 및 INSERT 작업을 포함하도록 확장되었습니다. 이 동작은 SQL 웨어하우스의 기본값에 맞춥니다. Azure Databricks의 Delta Lake에 대한 최적화된 쓰기를 참조하세요.
  • 2023년 5월 17일

    • _metadata.file_path_metadata.file_name가 형식이 잘못된 문자열을 반환하는 회귀를 수정했습니다. 예를 들어 이제 공백이 있는 경로가 s3://test-bucket/some directory/some data.csv 대신 s3://test-bucket/some%20directory/some%20data.csv로 표시됩니다.
    • Parquet 검사는 일괄 처리 크기를 동적으로 조정하여 매우 구조화된 파일을 검색할 때 OOM에 대해 강력해졌습니다. 파일 메타데이터는 일괄 처리 크기를 선제적으로 낮추기 위해 분석되며, 작업 재시도 시 최종 안전망으로 다시 낮아집니다.
      • failOnNewColumns\ 스키마 진화 모드에서 failOnUnknownFields\ 옵션 또는 자동 로더를 사용하여 Avro 파일을 읽은 경우 파일을 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열을 null\로 읽습니다. 이러한 읽기는 이제 실패하고 사용자에게 rescuedDataColumn\ 옵션을 사용하도록 권장합니다.
    • 이제 자동 로더가 다음을 수행합니다.
      • Integer, Short, Byte 데이터 형식 중 하나가 제공되면 올바르게 읽고 더 이상 이러한 형식을 구조하지 않지만, Avro 파일은 다른 두 형식 중 하나를 제안합니다.
      • 날짜 또는 타임스탬프 형식으로 읽기 간격 형식을 방지하여 날짜가 손상되지 않도록 합니다.
      • 정밀도가 낮은 읽기 Decimal 형식을 방지합니다.
    • [SPARK-43172] [CONNECT] Spark Connect 클라이언트에서 호스트 및 토큰을 노출합니다.
    • [SPARK-43293][SQL] __qualified_access_only는 일반 열에서 무시됩니다.
    • [SPARK-43098][SQL] 스칼라 하위 쿼리를 절별로 그룹화 할 때 수정 COUNT 버그가 수정되었습니다.
    • [SPARK-43085][SQL] 여러 부분으로 구성된 테이블 이름에 대한 열 DEFAULT 할당을 지원합니다.
    • [SPARK-43190][SQL] ListQuery.childOutput은 이제 보조 출력과 일치합니다.
    • [SPARK-43192] [CONNECT] 사용자 에이전트 문자 집합 유효성 검사가 제거되었습니다.
  • 2023년 4월 25일

    • 델타 테이블을 수정하고 DeltaTable.addFeatureSupport(feature_name)을 사용하여 델타 테이블 기능에 대한 지원을 추가할 수 있습니다.
    • 이제 SYNC 명령에서 레거시 데이터 원본 서식을 지원합니다.
    • Python Notebook에서 다른 명령을 실행하기 전에 Python 포맷터를 사용하면 Notebook 경로가 sys.path.에서 누락될 수 있는 버그가 수정되었습니다.
    • 이제 Azure Databricks는 델타 테이블의 열에 대한 기본값 지정을 지원합니다. INSERT, UPDATE, DELETE, MERGE 명령은 명시적 DEFAULT 키워드를 사용하여 열의 기본값을 참조할 수 있습니다. 대상 테이블보다 열 수가 적은 명시적 목록이 있는 INSERT 명령의 경우 해당 열 기본값이 나머지 열로 대체됩니다(또는 기본값이 지정되지 않은 경우, NULL).
  • 웹 터미널을 사용하여 일부 사용자가 /Workspace의 파일에 액세스할 수 없는 버그를 수정합니다.

    • failOnNewColumns 스키마 진화 모드에서 failOnUnknownFields 옵션 또는 자동 로더를 사용하여 Parquet 파일을 읽은 경우 파일을 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열을 null로 읽습니다. 이러한 읽기는 이제 실패하고 사용자에게 rescuedDataColumn 옵션을 사용하도록 권장합니다.
    • 이제 자동 로더가 올바르게 읽고 이러한 데이터 형식 중 하나가 제공되면 Integer, Short, Byte 형식을 더 이상 복구 하지 않습니다. Parquet 파일은 다른 두 형식 중 하나를 제안합니다. 이전에 구조된 데이터 열을 사용하도록 설정했을 때 데이터 형식이 일치하지 않으면 열이 읽을 수 있더라도 복구됩니다.
    • 중첩된 JSON 개체의 스키마에서 새 열이 검색될 때 자동 로더 스키마 진화가 무한 장애 루프로 전환될 수 있는 버그가 수정되었습니다.
    • [SPARK-42794][SS] 구조 스트리밍에서 RocksDB 상태 저장소를 획득하기 위해 lockAcquireTimeoutMs을 2분으로 늘림.
    • [SPARK-39221][SQL] Thrift 서버 작업/단계 탭에 대해 중요한 정보를 올바르게 수정.
    • [SPARK-42971][CORE] 작업자가 WorkDirCleanup 이벤트를 처리할 때 appDirs이 null인 경우 workdir를 인쇄하도록 변경.
    • [SPARK-42936][SQL] having 절을 자식 집계에 의해 직접 확인할 수 있는 경우 LCA 버그 수정.
    • [SPARK-43018][SQL] 타임스탬프 리터럴을 사용하여 INSERT 명령에 대한 버그 수정.
    • 되돌리기 [SPARK-42754][SQL][UI] 중첩된 SQL 실행에서 이전 버전과의 호환성 문제 해결.
    • Revert [SPARK-41498] Union을 통해 메타데이터 전파.
    • [SPARK-43038][SQL] aes_encrypt()/aes_decrypt()의 CBC 모드 지원.
    • [SPARK-42928][SQL] resolvePersistentFunction를 동기화.
    • [SPARK-42521][SQL] 대상 테이블보다 적은 열의 사용자 지정 목록을 사용하는 INSERTNULL 값 추가.
    • [SPARK-41391][SQL] 출력 열 이름 groupBy.agg(count_distinct)가 잘못.
    • [SPARK-42548][SQL] 특성 다시 쓰기를 건너뛰려면 ReferenceAllColumns 추가.
    • [SPARK-42423][SQL] 메타데이터 열 파일 블록 시작 및 길이 추가.
    • [SPARK-42796][SQL] CachedBatch에서 TimestampNTZ 열에 대한 액세스 지원.
    • [SPARK-42266][PYTHON] IPython을 사용할 때 shell.py 실행에서 부모 디렉터리 제거.
    • [SPARK-43011][SQL] array_insert는 0 인덱스로 실패해야 함.
    • [SPARK-41874][CONNECT] [PYTHON] Spark Connect에서 SameSemantics 지원.
    • [SPARK-42702][SPARK-42623][SQL] 하위 쿼리 및 CTE에서 매개 변수가 있는 쿼리 지원.
    • [SPARK-42967][CORE] 스테이지가 취소된 후 작업이 시작되는 경우 SparkListenerTaskStart.stageAttemptId 수정.
    • 운영 체제 보안 업데이트.

Databricks Runtime 12.1(EoS)

Databricks Runtime 12.1(EoS)을 참조하세요.

  • 2023년 6월 23일

    • 운영 체제 보안 업데이트.
  • 2023년 6월 15일

    • approx_count_distinct를 광자화했습니다.
    • Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
    • [SPARK-43779][SQL] ParseToDate이 이제 주 스레드에서 EvalMode를 로드합니다.
    • [SPARK-43156][SPARK-43098][SQL] decorrelateInnerQuery를 사용하지 않도록 설정하여 스칼라 하위 쿼리 수 버그 테스트 확장
    • 운영 체제 보안 업데이트.
  • 2023년 6월 2일

    • failOnUnknownFields 모드의 JSON 파서는 DROPMALFORMED 모드에서 레코드를 삭제하고 FAILFAST 모드에서 바로 실패합니다.
    • SHALLOW CLONE Iceberg 및 Parquet을 사용하여 증분 업데이트의 성능을 향상시킵니다.
    • 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
    • [SPARK-43404][Backport] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
    • [SPARK-43413][11.3-13.0][SQL] IN 하위 쿼리 ListQuery null 허용 여부가 수정되었습니다.
    • [SPARK-43522][SQL] 배열 인덱스를 사용하여 구조체 열 이름을 만드는 문제가 수정되었습니다.
    • [SPARK-42444][PYTHON] DataFrame.drop이 이제 중복된 열을 제대로 처리합니다.
    • [SPARK-43541][SQL] 식 및 누락된 열을 확인할 때 모든 Project 태그를 전파합니다.
    • [SPARK-43340][CORE] 이벤트 로그에서 누락된 스택 추적 필드가 수정되었습니다.
    • [SPARK-42937][SQL] PlanSubqueries이 이제 InSubqueryExec#shouldBroadcast을 true로 설정합니다.
    • [SPARK-43527][PYTHON] PySpark에서 catalog.listCatalogs가 수정되었습니다.
    • [SPARK-43378][CORE] deserializeFromChunkedBuffer에서 스트림 개체를 제대로 닫습니다.
  • 2023년 5월 17일

    • Parquet 검사는 일괄 처리 크기를 동적으로 조정하여 매우 구조화된 파일을 검색할 때 OOM에 대해 강력해졌습니다. 파일 메타데이터는 일괄 처리 크기를 선제적으로 낮추기 위해 분석되며, 작업 재시도 시 최종 안전망으로 다시 낮아집니다.
    • failOnNewColumns\ 스키마 진화 모드에서 failOnUnknownFields\ 옵션 또는 자동 로더를 사용하여 Avro 파일을 읽은 경우 파일을 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열을 null\로 읽습니다. 이러한 읽기는 이제 실패하고 사용자에게 rescuedDataColumn\ 옵션을 사용하도록 권장합니다.
    • 이제 자동 로더가 다음을 수행합니다.
      • Integer, Short, Byte 데이터 형식 중 하나가 제공되면 올바르게 읽고 더 이상 이러한 형식을 구조하지 않지만, Avro 파일은 다른 두 형식 중 하나를 제안합니다.
      • 날짜 또는 타임스탬프 형식으로 읽기 간격 형식을 방지하여 날짜가 손상되지 않도록 합니다.
      • 정밀도가 낮은 읽기 Decimal 형식을 방지합니다.
    • [SPARK-43098][SQL] 스칼라 하위 쿼리를 절별로 그룹화 할 때 수정 COUNT 버그가 수정되었습니다.
    • [SPARK-43190][SQL] ListQuery.childOutput은 이제 보조 출력과 일치합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 4월 25일

    • failOnNewColumns 스키마 진화 모드에서 failOnUnknownFields 옵션 또는 자동 로더를 사용하여 Parquet 파일을 읽은 경우 파일을 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열을 null로 읽습니다. 이러한 읽기는 이제 실패하고 사용자에게 rescuedDataColumn 옵션을 사용하도록 권장합니다.
    • 이제 자동 로더가 올바르게 읽고 이러한 데이터 형식 중 하나가 제공되면 Integer, Short, Byte 형식을 더 이상 복구 하지 않습니다. Parquet 파일은 다른 두 형식 중 하나를 제안합니다. 이전에 구조된 데이터 열을 사용하도록 설정했을 때 데이터 형식이 일치하지 않으면 열이 읽을 수 있더라도 복구됩니다.
    • [SPARK-43009][SQL] Any 상수로 sql()가 매개 변수화됩니다.
    • [SPARK-42971][CORE] 작업자가 WorkDirCleanup 이벤트를 처리할 때 appDirs이 null인 경우 workdir를 인쇄하도록 변경.
    • 운영 체제 보안 업데이트.
  • 2023년 4월 11일

    • SYNC 명령에서 레거시 데이터 원본 서식을 지원합니다.
    • 리포지토리 외부에 있는 Notebook에서 %autoreload 동작의 버그를 수정합니다.
    • 중첩된 JSON 개체의 스키마에서 새 열이 검색될 때 자동 로더 스키마 진화가 무한 장애 루프로 전환될 수 있는 버그가 수정되었습니다.
    • [SPARK-42928][SQL] resolvePersistentFunction를 동기화합니다.
    • [SPARK-42967][CORE] 스테이지가 취소된 후 작업이 시작되는 경우 SparkListenerTaskStart.stageAttemptId 수정.
    • 운영 체제 보안 업데이트.
  • 2023년 3월 29일

    • 이제 자동 로더는 Trigger.AvailableNow 스트림에 대해 하나 이상의 동기 RocksDB 로그 정리를 트리거하여 빠른 실행 자동 로더 스트림에 대한 검사점을 정기적으로 정리할 수 있도록 합니다. 이로 인해 일부 스트림이 종료되기까지 시간이 더 오래 걸릴 수 있지만 스토리지 비용을 절감하고 향후 실행 시 자동 로더 환경을 개선할 수 있습니다.
    • 이제 델타 테이블을 수정하고 DeltaTable.addFeatureSupport(feature_name)을 사용하여 테이블 기능에 지원을 추가할 수 있습니다.
    • [SPARK-42702][SPARK-42623][SQL] 하위 쿼리 및 CTE에서 매개 변수가 있는 쿼리 지원
    • [SPARK-41162][SQL] 집계를 사용하여 셀프 조인에 대한 안티 및 세미 조인 수정
    • [SPARK-42403][CORE] JsonProtocol은 null JSON 문자열을 처리해야 함
    • [SPARK-42668][SS] HDFSStateStoreProvider 중단에서 압축 스트림을 닫는 동안 예외 catch
    • [SPARK-42794][SS] 구조 스트리밍에서 RocksDB 상태 저장소를 획득하기 위해 lockAcquireTimeoutMs을 2분으로 늘림
  • 2023년 3월 14일

    • 테이블 속성을 사용하여 델타 테이블에 기능을 추가하기 위한 용어 변경이 있습니다. 기본 구문은 이제 'delta.feature.featureName'='enabled' 대신 'delta.feature.featureName'='supported'입니다. 이전 버전과의 호환성을 위해 'delta.feature.featureName'='enabled' 사용이 여전히 작동하며 계속 작동합니다.
    • [SPARK-42622][CORE] 값에서 대체 사용 안 함
    • [SPARK-42534][SQL] DB2Dialect Limit 절 수정
    • [SPARK-42635][SQL] TimestampAdd 식 수정.
    • [SPARK-42516][SQL] 보기를 만드는 동안 항상 세션 표준 시간대 구성 캡처
    • [SPARK-42484] [SQL] UnsafeRowUtils 더 나은 오류 메시지
    • [SPARK-41793][SQL] 큰 소수점에서 범위 절로 정의된 창 프레임의 잘못된 결과
    • 운영 체제 보안 업데이트.
  • 2023년 2월 24일

    • 이제 쿼리 페더레이션(PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server)에서 지원되는 데이터 원본에 연결하기 위해 통합된 옵션 집합(host, port, database, user, password)을 사용할 수 있습니다. port는 선택 사항이며 제공되지 않은 경우 각 데이터 원본에 대한 기본 포트 번호를 사용합니다.

    PostgreSQL 연결 구성의 예

    CREATE TABLE postgresql_table
    USING postgresql
    OPTIONS (
      dbtable '<table-name>',
      host '<host-name>',
      database '<database-name>',
      user '<user>',
      password secret('scope', 'key')
    );
    

    Snowflake 연결 구성의 예

    CREATE TABLE snowflake_table
    USING snowflake
    OPTIONS (
      dbtable '<table-name>',
      host '<host-name>',
      port '<port-number>',
      database '<database-name>',
      user secret('snowflake_creds', 'my_username'),
      password secret('snowflake_creds', 'my_password'),
      schema '<schema-name>',
      sfWarehouse '<warehouse-name>'
    );
    
    • [SPARK-41989][PYTHON] pyspark.pandas에서 로깅 구성 중단 방지
    • [SPARK-42346][SQL] 하위 쿼리 병합 후 고유 집계 다시 쓰기
    • [SPARK-41990][SQL] V1에서 V2로의 apply 필터 변환 대신 FieldReference.column 사용
    • 되돌리기 [SPARK-41848][CORE] TaskResourceProfile을 사용하여 초과 예약된 작업 수정
    • [SPARK-42162] MultiCommutativeOp 식을 커밋 식의 큰 트리를 정규화하기 위한 메모리 최적화로 도입
    • 운영 체제 보안 업데이트.
  • 2023년 2월 16일

    • SYNC 명령은 다시 생성된 Hive 메타스토어 테이블의 동기화를 지원합니다. HMS 테이블이 이전에 Unity 카탈로그에 SYNCed되었지만 삭제되고 다시 만들어지면 TABLE_ALREADY_EXISTS 상태 코드를 throw하는 대신 후속 다시 동기화가 작동합니다.
    • [SPARK-41219][SQL] IntegralDivide가 decimal(1, 0)을 사용하여 0 표시
    • [SPARK-36173][CORE] TaskContext에서 CPU 번호 가져오기 지원
    • [SPARK-41848][CORE] TaskResourceProfile을 사용하여 초과 예약된 작업 수정
    • [SPARK-42286][SQL] CAST를 사용하여 복잡한 expr에 대한 이전 codegen 코드 경로로 대체
  • 2023년 1월 31일

    • 이제 정의된 위치로 스키마를 만들려면 사용자가 ANY FILE에 대해 SELECT 및 MODIFY 권한을 가져야 합니다.
    • [SPARK-41581][SQL] _LEGACY_ERROR_TEMP_1230에 이름 할당
    • [SPARK-41996][SQL] [SS] 느린 Kafka 작업을 고려하여 손실된 파티션을 확인하도록 kafka 테스트 수정
    • [SPARK-41580][SQL] _LEGACY_ERROR_TEMP_2137에 이름 할당
    • [SPARK-41666][PYTHON] sql()별 매개 변수화된 SQL 지원
    • [SPARK-41579][SQL] _LEGACY_ERROR_TEMP_1249에 이름 할당
    • [SPARK-41573][SQL] _LEGACY_ERROR_TEMP_2136에 이름 할당
    • [SPARK-41574][SQL] _LEGACY_ERROR_TEMP_2009에 이름 할당
    • [SPARK-41049][Followup] ConvertToLocalRelation에 대한 코드 동기화 회귀 수정
    • [SPARK-41576][SQL] _LEGACY_ERROR_TEMP_2051에 이름 할당
    • [SPARK-41572][SQL] _LEGACY_ERROR_TEMP_2149에 이름 할당
    • [SPARK-41575][SQL] _LEGACY_ERROR_TEMP_2054에 이름 할당
    • 운영 체제 보안 업데이트.

Databricks Runtime 12.0(EoS)

Databricks Runtime 12.0(EoS)을 참조하세요.

  • 2023년 6월 15일

    • approx_count_distinct를 광자화했습니다.
    • Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
    • [SPARK-43156][SPARK-43098][SQL] decorrelateInnerQuery를 사용하지 않도록 설정하여 스칼라 하위 쿼리 수 버그 테스트 확장
    • [SPARK-43779][SQL] ParseToDate이 이제 주 스레드에서 EvalMode를 로드합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 2일

    • failOnUnknownFields 모드의 JSON 파서는 DROPMALFORMED 모드에서 레코드를 삭제하고 FAILFAST 모드에서 바로 실패합니다.
    • SHALLOW CLONE Iceberg 및 Parquet을 사용하여 증분 업데이트의 성능을 향상시킵니다.
    • 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
    • [SPARK-42444][PYTHON] DataFrame.drop이 이제 중복된 열을 제대로 처리합니다.
    • [SPARK-43404][Backport] ID 불일치 오류를 방지하려면 동일한 버전의 RocksDB 상태 저장소에 대한 sst 파일 재사용을 건너뜁니다.
    • [SPARK-43413][11.3-13.0][SQL] IN 하위 쿼리 ListQuery null 허용 여부가 수정되었습니다.
    • [SPARK-43527][PYTHON] PySpark에서 catalog.listCatalogs가 수정되었습니다.
    • [SPARK-43522][SQL] 배열 인덱스를 사용하여 구조체 열 이름을 만드는 문제가 수정되었습니다.
    • [SPARK-43541][SQL] 식 및 누락된 열을 확인할 때 모든 Project 태그를 전파합니다.
    • [SPARK-43340][CORE] 이벤트 로그에서 누락된 스택 추적 필드가 수정되었습니다.
    • [SPARK-42937][SQL] PlanSubqueriesInSubqueryExec#shouldBroadcast를 true로 설정합니다.
  • 2023년 5월 17일

    • Parquet 검사는 일괄 처리 크기를 동적으로 조정하여 매우 구조화된 파일을 검색할 때 OOM에 대해 강력해졌습니다. 파일 메타데이터는 일괄 처리 크기를 선제적으로 낮추기 위해 분석되며, 작업 재시도 시 최종 안전망으로 다시 낮아집니다.
    • failOnNewColumns\ 스키마 진화 모드에서 failOnUnknownFields\ 옵션 또는 자동 로더를 사용하여 Avro 파일을 읽은 경우 파일을 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열을 null\로 읽습니다. 이러한 읽기는 이제 실패하고 사용자에게 rescuedDataColumn\ 옵션을 사용하도록 권장합니다.
    • 이제 자동 로더가 다음을 수행합니다.
      • Integer, Short, Byte 데이터 형식 중 하나가 제공되면 올바르게 읽고 더 이상 이러한 형식을 구조하지 않지만, Avro 파일은 다른 두 형식 중 하나를 제안합니다.
      • 날짜 또는 타임스탬프 형식으로 읽기 간격 형식을 방지하여 날짜가 손상되지 않도록 합니다.
      • 정밀도가 낮은 읽기 Decimal 형식을 방지합니다.
    • [SPARK-43172] [CONNECT] Spark Connect 클라이언트에서 호스트 및 토큰을 노출합니다.
    • [SPARK-41520][SQL] AND_OR 트리 패턴을 분할하여 ANDOR를 구분합니다.
    • [SPARK-43098][SQL] 스칼라 하위 쿼리를 절별로 그룹화 할 때 수정 COUNT 버그가 수정되었습니다.
    • [SPARK-43190][SQL] ListQuery.childOutput은 이제 보조 출력과 일치합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 4월 25일

    • failOnNewColumns 스키마 진화 모드에서 failOnUnknownFields 옵션 또는 자동 로더를 사용하여 Parquet 파일을 읽은 경우 파일을 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열을 null로 읽습니다. 이러한 읽기는 이제 실패하고 사용자에게 rescuedDataColumn 옵션을 사용하도록 권장합니다.
    • 이제 자동 로더가 올바르게 읽고 이러한 데이터 형식 중 하나가 제공되면 Integer, Short, Byte 형식을 더 이상 복구 하지 않습니다. Parquet 파일은 다른 두 형식 중 하나를 제안합니다. 이전에 구조된 데이터 열을 사용하도록 설정했을 때 데이터 형식이 일치하지 않으면 열이 읽을 수 있더라도 복구됩니다.
    • [SPARK-42971][CORE] 작업자가 WorkDirCleanup 이벤트를 처리할 때 appDirs이 null인 경우 workdir를 인쇄하도록 변경
    • 운영 체제 보안 업데이트.
  • 2023년 4월 11일

    • SYNC 명령에서 레거시 데이터 원본 서식을 지원합니다.
    • 리포지토리 외부에 있는 Notebook의 %autoreload 동작에서 버그를 수정합니다.
    • 중첩된 JSON 개체의 스키마에서 새 열이 검색될 때 자동 로더 스키마 진화가 무한 장애 루프로 전환될 수 있는 버그가 수정되었습니다.
    • [SPARK-42928][SQL] resolvePersistentFunction를 동기화합니다.
    • [SPARK-42967][CORE] 스테이지가 취소된 후 작업이 시작되는 경우 SparkListenerTaskStart.stageAttemptId 수정.
    • 운영 체제 보안 업데이트.
  • 2023년 3월 29일

    • [SPARK-42794][SS] 구조 스트리밍에서 RocksDB 상태 저장소를 획득하기 위해 lockAcquireTimeoutMs을 2분으로 늘림
    • [SPARK-41162][SQL] 집계를 사용하여 셀프 조인에 대한 안티 및 세미 조인 수정
    • [SPARK-42403][CORE] JsonProtocol은 null JSON 문자열을 처리해야 함
    • [SPARK-42668][SS] HDFSStateStoreProvider 중단에서 압축 스트림을 닫는 동안 예외 catch
    • 기타 버그가 수정되었습니다.
  • 2023년 3월 14일

    • [SPARK-42534][SQL] DB2Dialect Limit 절 수정
    • [SPARK-42622][CORE] 값에서 대체 사용 안 함
    • [SPARK-41793][SQL] 큰 소수점에서 범위 절로 정의된 창 프레임의 잘못된 결과
    • [SPARK-42484] [SQL] UnsafeRowUtils 더 나은 오류 메시지
    • [SPARK-42635][SQL] TimestampAdd 식 수정.
    • [SPARK-42516][SQL] 보기를 만드는 동안 항상 세션 표준 시간대 구성 캡처
    • 운영 체제 보안 업데이트.
  • 2023년 2월 24일

    • 쿼리 페더레이션에 대한 표준화된 연결 옵션

      이제 쿼리 페더레이션(PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server)에서 지원되는 데이터 원본에 연결하기 위해 통합된 옵션 집합(host, port, database, user, password)을 사용할 수 있습니다. port는 선택 사항이며 제공되지 않은 경우 각 데이터 원본에 대한 기본 포트 번호를 사용합니다.

      PostgreSQL 연결 구성의 예

      CREATE TABLE postgresql_table
      USING postgresql
      OPTIONS (
        dbtable '<table-name>',
        host '<host-name>',
        database '<database-name>',
        user '<user>',
        password secret('scope', 'key')
      );
      

      Snowflake 연결 구성의 예

      CREATE TABLE snowflake_table
      USING snowflake
      OPTIONS (
        dbtable '<table-name>',
        host '<host-name>',
        port '<port-number>',
        database '<database-name>',
        user secret('snowflake_creds', 'my_username'),
        password secret('snowflake_creds', 'my_password'),
        schema '<schema-name>',
        sfWarehouse '<warehouse-name>'
      );
      
    • 되돌리기 [SPARK-41848][CORE] TaskResourceProfile을 사용하여 초과 예약된 작업 수정

    • [SPARK-42162] MultiCommutativeOp 식을 커밋 식의 큰 트리를 정규화하기 위한 메모리 최적화로 도입

    • [SPARK-41990][SQL] V1에서 V2로의 apply 필터 변환 대신 FieldReference.column 사용

    • [SPARK-42346][SQL] 하위 쿼리 병합 후 고유 집계 다시 쓰기

    • 운영 체제 보안 업데이트.

  • 2023년 2월 16일

    • 이제 사용자는 Databricks Runtime 9.1 이상을 사용하여 판독기 버전 3 및 기록기 버전 7이 필요한 특정 델타 테이블을 읽고 쓸 수 있습니다. 성공하려면 테이블 프로토콜에 나열된 테이블 기능이 현재 버전의 Databricks Runtime에서 지원되어야 합니다.
    • SYNC 명령은 다시 생성된 Hive 메타스토어 테이블의 동기화를 지원합니다. HMS 테이블이 이전에 Unity 카탈로그에 SYNCed되었지만 삭제되고 다시 만들어지면 TABLE_ALREADY_EXISTS 상태 코드를 throw하는 대신 후속 다시 동기화가 작동합니다.
    • [SPARK-36173][CORE] TaskContext에서 CPU 번호 가져오기 지원
    • [SPARK-42286][SQL] CAST를 사용하여 복잡한 expr에 대한 이전 codegen 코드 경로로 대체
    • [SPARK-41848][CORE] TaskResourceProfile을 사용하여 초과 예약된 작업 수정
    • [SPARK-41219][SQL] IntegralDivide가 decimal(1, 0)을 사용하여 0 표시
  • 2023년 1월 25일

    • [SPARK-41660][SQL] 메타데이터 열이 사용되는 경우에만 전파
    • [SPARK-41379][SS][PYTHON] PySpark의 foreachBatch 싱크에 대한 사용자 함수의 DataFrame에서 복제된 Spark 세션 제공
    • [SPARK-41669][SQL] canCollapseExpressions의 초기 정리
    • 운영 체제 보안 업데이트.
  • 2023년 1월 18일

    • REFRESH FUNCTION 이제 SQL 명령은 SQL 함수 및 SQL 테이블 함수를 지원합니다. 예를 들어 이 명령을 사용하여 다른 SQL 세션에서 업데이트된 영구 SQL 함수를 새로 고칠 수 있습니다.
    • JDBC(Java Database Connectivity) 데이터 원본 v1은 이제 쿼리의 성능을 향상시키기 위해 LIMIT 절 푸시다운을 지원합니다. 이 기능은 기본적으로 사용되지만 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabledfalse로 설정하여 비활성화할 수 있습니다.
    • 레거시 테이블 ACL 클러스터에서 JVM 클래스를 참조하는 함수를 만들려면 이제 MODIFY_CLASSPATH 권한이 필요합니다.
    • JDBC(Java Database Connectivity) 데이터 원본 v1은 이제 쿼리의 성능을 향상시키기 위해 LIMIT 절 푸시다운을 지원합니다. 이 기능은 기본적으로 사용하도록 설정되며 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled를 false로 설정하여 비활성화할 수 있습니다.
    • 이제 열 이름에 공백 또는 세미콜론과 같은 잘못된 캐릭터가 포함된 경우 Azure Synapse 커넥터는 설명을 포함하는 오류 메시지를 반환합니다. 이러한 경우 다음 메시지가 반환됩니다. Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
    • Spark 구조적 스트리밍은 이제 원본인 델타 공유 테이블의 형식(“deltasharing”)으로 작동합니다.
    • [SPARK-38277][SS] RocksDB 상태 저장소 커밋 후 쓰기 일괄 처리 지우기
    • [SPARK-41733][SQL][SS] ResolveWindowTime 규칙에 트리 패턴 기반 정리 적용
    • [SPARK-39591][SS] 비동기 진행률 추적
    • [SPARK-41339][SQL] 단순히 지우는 대신 RocksDB 쓰기 일괄 처리를 닫고 다시 생성
    • [SPARK-41198][SS] CTE 및 DSv1 스트리밍 원본이 있는 스트리밍 쿼리의 메트릭 수정
    • [SPARK-41539][SQL] LogicalRDD에 대한 논리 계획에서 출력 통계 및 제약 조건 다시 매핑
    • [SPARK-41732][SQL][SS] SessionWindowing 규칙에 트리 패턴 기반 정리 적용
    • [SPARK-41862][SQL] Orc 판독기에서 DEFAULT 값과 관련된 정확성 버그 수정
    • [SPARK-41199][SS] DSv1 스트리밍 원본 및 DSv2 스트리밍 원본이 공동으로 사용되는 경우 메트릭 문제 해결
    • [SPARK-41261][PYTHON][SS] 그룹화 키 열이 초기부터 순서대로 배치되지 않은 경우 applyInPandasWithState에 대한 문제 해결
    • 운영 체제 보안 업데이트.
  • 2023년 5월 17일

    • Parquet 검사는 일괄 처리 크기를 동적으로 조정하여 매우 구조화된 파일을 검색할 때 OOM에 대해 강력해졌습니다. 파일 메타데이터는 일괄 처리 크기를 선제적으로 낮추기 위해 분석되며, 작업 재시도 시 최종 안전망으로 다시 낮아집니다.
    • 클러스터 초기화 중에 메타스토어에 연결하지 못한 후 Azure Databricks 작업이 유지되는 회귀가 수정되었습니다.
    • [SPARK-41520][SQL] AND_OR 트리 패턴을 분할하여 ANDOR를 구분합니다.
    • [SPARK-43190][SQL] ListQuery.childOutput은 이제 보조 출력과 일치합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 4월 25일

    • failOnNewColumns 스키마 진화 모드에서 failOnUnknownFields 옵션 또는 자동 로더를 사용하여 Parquet 파일을 읽은 경우 파일을 읽을 수 없다는 오류를 throw하는 대신 데이터 형식이 다른 열을 null로 읽습니다. 이러한 읽기는 이제 실패하고 사용자에게 rescuedDataColumn 옵션을 사용하도록 권장합니다.
    • 이제 자동 로더가 올바르게 읽고 이러한 데이터 형식 중 하나가 제공되면 Integer, Short, Byte 형식을 더 이상 복구 하지 않습니다. Parquet 파일은 다른 두 형식 중 하나를 제안합니다. 이전에 구조된 데이터 열을 사용하도록 설정했을 때 데이터 형식이 일치하지 않으면 열이 읽을 수 있더라도 복구됩니다.
    • [SPARK-42937][SQL] PlanSubqueries이 이제 InSubqueryExec#shouldBroadcast을 true로 설정합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 4월 11일

    • SYNC 명령에서 레거시 데이터 원본 서식을 지원합니다.
    • 리포지토리 외부에 있는 Notebook의 %autoreload 동작에서 버그를 수정합니다.
    • 중첩된 JSON 개체의 스키마에서 새 열이 검색될 때 자동 로더 스키마 진화가 무한 장애 루프로 전환될 수 있는 버그가 수정되었습니다.
    • [SPARK-42928][SQL] resolvePersistentFunction을 동기화.
    • [SPARK-42967][CORE] 스테이지가 취소된 후 작업이 시작될 때 SparkListenerTaskStart.stageAttemptId를 수정합니다.
  • 2023년 3월 29일

    • [SPARK-42794][SS] 구조 스트리밍에서 RocksDB 상태 저장소를 획득하기 위해 lockAcquireTimeoutMs을 2분으로 늘림
    • [SPARK-42403][CORE] JsonProtocol은 null JSON 문자열을 처리해야 함
    • [SPARK-42668][SS] HDFSStateStoreProvider 중단에서 압축 스트림을 닫는 동안 예외 catch
    • 운영 체제 보안 업데이트.
  • 2023년 3월 14일

    • [SPARK-42635][SQL] TimestampAdd 식 수정.
    • [SPARK-41793][SQL] 큰 소수점에서 범위 절로 정의된 창 프레임의 잘못된 결과
    • [SPARK-42484] [SQL] UnsafeRowUtils 더 나은 오류 메시지
    • [SPARK-42534][SQL] DB2Dialect Limit 절 수정
    • [SPARK-41162][SQL] 집계를 사용하여 셀프 조인에 대한 안티 및 세미 조인 수정
    • [SPARK-42516][SQL] 보기를 만드는 동안 항상 세션 표준 시간대 구성 캡처
    • 기타 버그가 수정되었습니다.
  • 2023년 2월 28일

    • 쿼리 페더레이션에 대한 표준화된 연결 옵션

      이제 쿼리 페더레이션(PostgreSQL, MySQL, Synapse, Snowflake, Redshift, SQL Server)에서 지원되는 데이터 원본에 연결하기 위해 통합된 옵션 집합(host, port, database, user, password)을 사용할 수 있습니다. port는 선택 사항이며 제공되지 않은 경우 각 데이터 원본에 대한 기본 포트 번호를 사용합니다.

      PostgreSQL 연결 구성의 예

      CREATE TABLE postgresql_table
      USING postgresql
      OPTIONS (
        dbtable '<table-name>',
        host '<host-name>',
        database '<database-name>',
        user '<user>',
        password secret('scope', 'key')
      );
      

      Snowflake 연결 구성의 예

      CREATE TABLE snowflake_table
      USING snowflake
      OPTIONS (
        dbtable '<table-name>',
        host '<host-name>',
        port '<port-number>',
        database '<database-name>',
        user secret('snowflake_creds', 'my_username'),
        password secret('snowflake_creds', 'my_password'),
        schema '<schema-name>',
        sfWarehouse '<warehouse-name>'
      );
      
    • [SPARK-42286][SQL] CAST를 사용하여 복잡한 expr에 대한 이전 codegen 코드 경로로 대체

    • [SPARK-41989][PYTHON] pyspark.pandas에서 로깅 구성 중단 방지

    • [SPARK-42346][SQL] 하위 쿼리 병합 후 고유 집계 다시 쓰기

    • [SPARK-41360][CORE] 실행기가 손실된 경우 BlockManager 다시 등록 방지

    • [SPARK-42162] MultiCommutativeOp 식을 커밋 식의 큰 트리를 정규화하기 위한 메모리 최적화로 도입

    • [SPARK-41990][SQL] V1에서 V2로의 apply 필터 변환 대신 FieldReference.column 사용

    • 운영 체제 보안 업데이트.

  • 2023년 2월 16일

    • 이제 사용자는 Databricks Runtime 9.1 이상을 사용하여 판독기 버전 3 및 기록기 버전 7이 필요한 특정 델타 테이블을 읽고 쓸 수 있습니다. 성공하려면 테이블 프로토콜에 나열된 테이블 기능이 현재 버전의 Databricks Runtime에서 지원되어야 합니다.
    • SYNC 명령은 다시 생성된 Hive 메타스토어 테이블의 동기화를 지원합니다. HMS 테이블이 이전에 Unity 카탈로그에 SYNCed되었지만 삭제되고 다시 만들어지면 TABLE_ALREADY_EXISTS 상태 코드를 throw하는 대신 후속 다시 동기화가 작동합니다.
    • [SPARK-41219][SQL] IntegralDivide가 decimal(1, 0)을 사용하여 0 표시
    • [SPARK-40382][SQL] RewriteDistinctAggregates의 의미상 동등한 자식별 고유 집계 식 그룹화
    • 운영 체제 보안 업데이트.
  • 2023년 1월 25일

    • [SPARK-41379][SS][PYTHON] PySpark의 foreachBatch 싱크에 대한 사용자 함수의 DataFrame에서 복제된 Spark 세션 제공
    • [SPARK-41660][SQL] 메타데이터 열이 사용되는 경우에만 전파
    • [SPARK-41669][SQL] canCollapseExpressions의 초기 정리
    • 기타 버그가 수정되었습니다.
  • 2023년 1월 18일

    • REFRESH FUNCTION 이제 SQL 명령은 SQL 함수 및 SQL 테이블 함수를 지원합니다. 예를 들어 이 명령을 사용하여 다른 SQL 세션에서 업데이트된 영구 SQL 함수를 새로 고칠 수 있습니다.
    • JDBC(Java Database Connectivity) 데이터 원본 v1은 이제 쿼리의 성능을 향상시키기 위해 LIMIT 절 푸시다운을 지원합니다. 이 기능은 기본적으로 사용되지만 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabledfalse로 설정하여 비활성화할 수 있습니다.
    • JDBC(Java Database Connectivity) 데이터 원본 v1은 이제 쿼리의 성능을 향상시키기 위해 LIMIT 절 푸시다운을 지원합니다. 이 기능은 기본적으로 사용하도록 설정되며 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled를 false로 설정하여 비활성화할 수 있습니다.
    • 이제 열 이름에 공백 또는 세미콜론과 같은 잘못된 캐릭터가 포함된 경우 Azure Synapse 커넥터는 설명을 포함하는 오류 메시지를 반환합니다. 이러한 경우 다음 메시지가 반환됩니다. Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
    • [SPARK-41198][SS] CTE 및 DSv1 스트리밍 원본이 있는 스트리밍 쿼리의 메트릭 수정
    • [SPARK-41862][SQL] Orc 판독기에서 DEFAULT 값과 관련된 정확성 버그 수정
    • [SPARK-41539][SQL] LogicalRDD에 대한 논리 계획에서 출력 통계 및 제약 조건 다시 매핑
    • [SPARK-39591][SS] 비동기 진행률 추적
    • [SPARK-41199][SS] DSv1 스트리밍 원본 및 DSv2 스트리밍 원본이 공동으로 사용되는 경우 메트릭 문제 해결
    • [SPARK-41261][PYTHON][SS] 그룹화 키 열이 초기부터 순서대로 배치되지 않은 경우 applyInPandasWithState에 대한 문제 해결
    • [SPARK-41339][SQL] 단순히 지우는 대신 RocksDB 쓰기 일괄 처리를 닫고 다시 생성
    • [SPARK-41732][SQL][SS] SessionWindowing 규칙에 트리 패턴 기반 정리 적용
    • [SPARK-38277][SS] RocksDB 상태 저장소 커밋 후 쓰기 일괄 처리 지우기
    • 운영 체제 보안 업데이트.
  • 2022년 11월 29일

    • 사용자는 Redshift 커넥터를 사용하여 데이터를 작성할 때 선행 및 후행 공백의 동작을 구성할 수 있습니다. 공백 처리를 제어하기 위해 다음 옵션이 추가되었습니다.
      • true로 설정하면 csvignoreleadingwhitespacetempformatCSV 또는 CSV GZIP로 설정된 경우 쓰기 중 값에서 선행 공백을 제거합니다. 구성을 false로 설정하면 공백이 유지됩니다. 기본적으로 값은 true입니다.
      • true로 설정하면 csvignoretrailingwhitespacetempformatCSV 또는 CSV GZIP로 설정된 경우 쓰기 중 값에서 후행 공백을 제거합니다. 구성을 false로 설정하면 공백이 유지됩니다. 기본적으로 값은 true입니다.
    • 모든 열이 문자열(cloudFiles.inferColumnTypesfalse로 설정되거나 설정되지 않음)으로 남아 있고 JSON에 중첩된 개체가 포함된 경우 자동 로더에서 JSON 구문 분석 버그가 수정되었습니다.
    • snowflake-jdbc 종속성을 버전 3.13.22로 업그레이드 합니다.
    • JDBC 테이블의 테이블 형식은 이제 기본적으로 EXTERNAL입니다.
    • [SPARK-40906][SQL] Mode는 맵에 삽입하기 전에 키를 복사해야 합니다.
    • 운영 체제 보안 업데이트.
  • 2022년 11월 15일

    • 이제 테이블 ACL 및 UC 공유 클러스터에서 Python의 Dataset.toJSON 메서드를 허용합니다.
    • [SPARK-40646] 구조체, 맵 및 배열에 대한 JSON 구문 분석이 수정되었으므로 레코드의 일부가 스키마와 일치하지 않는 경우 null을 반환하는 대신 나머지 레코드를 올바르게 구문 분석할 수 있습니다. 향상된 동작을 옵트인하려면 spark.sql.json.enablePartialResultstrue로 설정합니다. 플래그는 원래 동작을 유지하기 위해 기본적으로 사용하지 않도록 설정됩니다.
    • [SPARK-40903][SQL] 데이터 형식이 변경된 경우 정규화를 위해 10진수 추가의 순서 변경을 하지 않음
    • [SPARK-40618][SQL] 참조 추적을 사용하여 중첩된 하위 쿼리가 있는 MergeScalarSubqueries 규칙의 버그 수정
    • [SPARK-40697][SQL] 외부 데이터 파일을 커버하는 읽기 쪽 char 패딩 추가
    • 운영 체제 보안 업데이트.
  • 2022년 11월 1일

    • Unity 카탈로그의 구조적 스트리밍은 이제 임시 액세스 토큰 새로 고침을 지원합니다. Unity 카탈로그로 실행되는 스트리밍 워크로드는 초기 토큰이 만료된 후 모든 용도 또는 작업 클러스터가 더 이상 실패하지 않습니다.
    • Delta 테이블에 _change_type라는 사용자 정의 열이 있지만 해당 테이블에서 데이터 피드 변경이 비활성화된 경우 MERGE를 실행할 때 해당 열의 데이터가 NULL 값으로 잘못 채워지는 문제를 해결했습니다.
    • MERGE를 실행하고 조건의 원본에서 정확히 99개의 열을 사용하면 java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow가 발생할 수 있는 문제를 해결했습니다.
    • allowOverwrites가 사용하도록 설정된 경우 동일한 마이크로 일괄 처리에서 파일을 복제할 수 있는 자동 로더 문제를 해결했습니다.
    • Apache commons-text를 1.10.0으로 업그레이드했습니다.
    • [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] CloudWatch MetricsLevel Config에 대한 지원이 추가됨
    • [SPARK-40596][CORE] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
    • [SPARK-40670][SS][PYTHON] 입력 스키마에 "nullable이 아닌" 열이 있는 경우 applyInPandasWithState에서 NPE 수정
    • 운영 체제 보안 업데이트.

Databricks Runtime 11.2(EoS)

Databricks Runtime 11.2(EoS)을 참조하세요.

  • 2023년 2월 28일
    • [SPARK-42286][SQL] CAST를 사용하여 복잡한 expr에 대한 이전 codegen 코드 경로로 대체
    • [SPARK-42346][SQL] 하위 쿼리 병합 후 고유 집계 다시 쓰기
    • 운영 체제 보안 업데이트.
  • 2023년 2월 16일
    • 이제 사용자는 Databricks Runtime 9.1 이상을 사용하여 판독기 버전 3 및 기록기 버전 7이 필요한 특정 델타 테이블을 읽고 쓸 수 있습니다. 성공하려면 테이블 프로토콜에 나열된 테이블 기능이 현재 버전의 Databricks Runtime에서 지원되어야 합니다.
    • SYNC 명령은 다시 생성된 Hive 메타스토어 테이블의 동기화를 지원합니다. HMS 테이블이 이전에 Unity 카탈로그에 SYNCed되었지만 삭제되고 다시 만들어지면 TABLE_ALREADY_EXISTS 상태 코드를 throw하는 대신 후속 다시 동기화가 작동합니다.
    • [SPARK-41219][SQL] IntegralDivide가 decimal(1, 0)을 사용하여 0 표시
    • 운영 체제 보안 업데이트.
  • 2023년 1월 31일
    • JDBC 테이블의 테이블 형식은 이제 기본적으로 EXTERNAL입니다.
    • [SPARK-41379][SS][PYTHON] PySpark의 foreachBatch 싱크에 대한 사용자 함수의 DataFrame에서 복제된 Spark 세션 제공
  • 2023년 1월 18일
    • 이제 열 이름에 공백 또는 세미콜론과 같은 잘못된 캐릭터가 포함된 경우 Azure Synapse 커넥터는 설명을 포함하는 오류 메시지를 반환합니다. 이러한 경우 다음 메시지가 반환됩니다. Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
    • [SPARK-41198][SS] CTE 및 DSv1 스트리밍 원본이 있는 스트리밍 쿼리의 메트릭 수정
    • [SPARK-41862][SQL] Orc 판독기에서 DEFAULT 값과 관련된 정확성 버그 수정
    • [SPARK-41539][SQL] LogicalRDD에 대한 논리 계획에서 출력 통계 및 제약 조건 다시 매핑
    • [SPARK-41199][SS] DSv1 스트리밍 원본 및 DSv2 스트리밍 원본이 공동으로 사용되는 경우 메트릭 문제 해결
    • [SPARK-41339][SQL] 단순히 지우는 대신 RocksDB 쓰기 일괄 처리를 닫고 다시 생성
    • [SPARK-41732][SQL][SS] SessionWindowing 규칙에 트리 패턴 기반 정리 적용
    • [SPARK-38277][SS] RocksDB 상태 저장소 커밋 후 쓰기 일괄 처리 지우기
    • 운영 체제 보안 업데이트.
  • 2022년 11월 29일
    • 사용자는 Redshift 커넥터를 사용하여 데이터를 작성할 때 선행 및 후행 공백의 동작을 구성할 수 있습니다. 공백 처리를 제어하기 위해 다음 옵션이 추가되었습니다.
      • true로 설정하면 csvignoreleadingwhitespacetempformatCSV 또는 CSV GZIP로 설정된 경우 쓰기 중 값에서 선행 공백을 제거합니다. 구성을 false로 설정하면 공백이 유지됩니다. 기본적으로 값은 true입니다.
      • true로 설정하면 csvignoretrailingwhitespacetempformatCSV 또는 CSV GZIP로 설정된 경우 쓰기 중 값에서 후행 공백을 제거합니다. 구성을 false로 설정하면 공백이 유지됩니다. 기본적으로 값은 true입니다.
    • 모든 열이 문자열(cloudFiles.inferColumnTypesfalse로 설정되거나 설정되지 않음)으로 남아 있고 JSON에 중첩된 개체가 포함된 경우 자동 로더에서 JSON 구문 분석 버그가 수정되었습니다.
    • [SPARK-40906][SQL] Mode는 맵에 삽입하기 전에 키를 복사해야 합니다.
    • 운영 체제 보안 업데이트.
  • 2022년 11월 15일
    • [SPARK-40646] 구조체, 맵 및 배열에 대한 JSON 구문 분석이 수정되었으므로 레코드의 일부가 스키마와 일치하지 않는 경우 null을 반환하는 대신 나머지 레코드를 올바르게 구문 분석할 수 있습니다. 향상된 동작을 옵트인하려면 spark.sql.json.enablePartialResultstrue로 설정합니다. 플래그는 원래 동작을 유지하기 위해 기본적으로 사용하지 않도록 설정됩니다.
    • [SPARK-40618][SQL] 참조 추적을 사용하여 중첩된 하위 쿼리가 있는 MergeScalarSubqueries 규칙의 버그 수정
    • [SPARK-40697][SQL] 외부 데이터 파일을 커버하는 읽기 쪽 char 패딩 추가
    • 운영 체제 보안 업데이트.
  • 2022년 11월 1일
    • Apache commons-text를 1.10.0으로 업그레이드했습니다.
    • Delta 테이블에 _change_type라는 사용자 정의 열이 있지만 해당 테이블에서 데이터 피드 변경이 비활성화된 경우 MERGE를 실행할 때 해당 열의 데이터가 NULL 값으로 잘못 채워지는 문제를 해결했습니다.
    • MERGE를 실행하고 조건의 원본에서 정확히 99개의 열을 사용하면 java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow가 발생할 수 있는 문제를 해결했습니다.
    • allowOverwrites가 사용하도록 설정된 경우 동일한 마이크로 일괄 처리에서 파일을 복제할 수 있는 자동 로더 문제를 해결했습니다.
    • [SPARK-40596][CORE] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
    • 운영 체제 보안 업데이트.
  • 2022년 10월 19일
    • Unity 카탈로그 사용 클러스터/웨어하우스에서 임시 자격 증명이 있는 COPY INTO 사용 문제를 해결했습니다.
    • [SPARK-40213][SQL] 라틴어-1 문자에 대한 ASCII 값 변환 지원
    • 운영 체제 보안 업데이트.
  • 2022년 10월 5일
    • 사용자는 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")를 설정하여 ADLS Gen2에서 자동 로더에 대한 네이티브 목록을 다시 사용하도록 설정할 수 있습니다. 네이티브 목록은 이전에 성능 문제로 인해 꺼졌지만 고객의 스토리지 비용이 증가했을 수 있습니다. 이 변경 내용은 이전 유지 관리 업데이트에서 DBR 10.4 및 9.1로 롤아웃되었습니다.
    • [SPARK-40315][SQL]URL 인코딩/디코딩을 기본 제공 함수로 지원하고 URL 관련 함수 정리
    • [SPARK-40156][SQL]url_decode() 오류 클래스를 반환해야 함
    • [SPARK-40169] 데이터 스키마에 대한 참조 없이 Parquet 필터를 푸시다운해서는 안 됨
    • [SPARK-40460][SS] _metadata를 선택할 때 스트리밍 메트릭 수정
    • [SPARK-40468][SQL] _corrupt_record가 선택될 때 CSV에서 열 삭제 수정
    • [SPARK-40055][SQL] listCatalogs는 spark_catalog 구현이 defaultSessionCatalog인 경우에도 spark_catalog 반환해야 함
    • 운영 체제 보안 업데이트.
  • 2022년 9월 22일
    • [SPARK-40315][SQL] ArrayBasedMapData의 리터럴에 해시코드() 추가
    • [SPARK-40389][SQL] 캐스트가 오버플로할 수 있는 경우 10진수를 정수 형식으로 업캐스트할 수 없음
    • [SPARK-40380][SQL] 계획에 직렬화할 수 없는 리터럴이 포함되지 않도록 InvokeLike의 상수 폴딩 수정
    • [SPARK-40066][SQL][FOLLOW-UP] DataType을 가져오기 전에 ElementAt가 해결되었는지 확인
    • [SPARK-40109][SQL] 새 SQL 함수: get()
    • [SPARK-40066][SQL] ANSI 모드: 항상 잘못된 액세스에서 null을 반환하여 열 매핑
    • [SPARK-40089][SQL] 일부 10진수 형식에 대한 정렬 수정
    • [SPARK-39887][SQL] RemoveRedundantAliases는 프로젝션 노드의 출력을 고유하게 만드는 별칭을 유지해야 함
    • [SPARK-40152][SQL] split_part codegen 컴파일 문제 해결
    • [SPARK-40235][CORE] Executor.updateDependencies()에서 동기화되는 대신 인터럽트 가능한 잠금 사용
    • [SPARK-40212][SQL] SparkSQL castPartValue가 byte, short 또는 float를 제대로 처리하지 않음
    • [SPARK-40218][SQL] GROUPING SETS는 그룹화 열을 유지해야 함
    • [SPARK-35542][ML] 수정: 매개 변수가 있는 여러 열을 위해 만든 버킷타이저
    • [SPARK-40079] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사 추가
    • [SPARK-39912]SPARK-39828[SQL] CatalogImpl 구체화

Databricks Runtime 11.1(EoS)

Databricks Runtime 11.1(EoS)을 참조하세요.

  • 2023년 1월 31일

    • [SPARK-41379][SS][PYTHON] PySpark의 foreachBatch 싱크에 대한 사용자 함수의 DataFrame에서 복제된 Spark 세션 제공
    • 기타 버그가 수정되었습니다.
  • 2023년 1월 18일

    • 이제 열 이름에 공백 또는 세미콜론과 같은 잘못된 캐릭터가 포함된 경우 Azure Synapse 커넥터는 설명을 포함하는 오류 메시지를 반환합니다. 이러한 경우 다음 메시지가 반환됩니다. Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
    • [SPARK-41198][SS] CTE 및 DSv1 스트리밍 원본이 있는 스트리밍 쿼리의 메트릭 수정
    • [SPARK-41862][SQL] Orc 판독기에서 DEFAULT 값과 관련된 정확성 버그 수정
    • [SPARK-41199][SS] DSv1 스트리밍 원본 및 DSv2 스트리밍 원본이 공동으로 사용되는 경우 메트릭 문제 해결
    • [SPARK-41339][SQL] 단순히 지우는 대신 RocksDB 쓰기 일괄 처리를 닫고 다시 생성
    • [SPARK-41732][SQL][SS] SessionWindowing 규칙에 트리 패턴 기반 정리 적용
    • [SPARK-38277][SS] RocksDB 상태 저장소 커밋 후 쓰기 일괄 처리 지우기
    • 운영 체제 보안 업데이트.
  • 2022년 11월 29일

    • 사용자는 Redshift 커넥터를 사용하여 데이터를 작성할 때 선행 및 후행 공백의 동작을 구성할 수 있습니다. 공백 처리를 제어하기 위해 다음 옵션이 추가되었습니다.
      • true로 설정하면 csvignoreleadingwhitespacetempformatCSV 또는 CSV GZIP로 설정된 경우 쓰기 중 값에서 선행 공백을 제거합니다. 구성을 false로 설정하면 공백이 유지됩니다. 기본적으로 값은 true입니다.
      • true로 설정하면 csvignoretrailingwhitespacetempformatCSV 또는 CSV GZIP로 설정된 경우 쓰기 중 값에서 후행 공백을 제거합니다. 구성을 false로 설정하면 공백이 유지됩니다. 기본적으로 값은 true입니다.
    • 모든 열이 문자열(cloudFiles.inferColumnTypesfalse로 설정되거나 설정되지 않음)으로 남아 있고 JSON에 중첩된 개체가 포함된 경우 자동 로더에서 JSON 구문 분석 버그가 수정되었습니다.
    • [SPARK-39650] [SS] 이전 버전과의 호환성이 있는 스트리밍 중복 제거의 잘못된 값 스키마 수정
    • 운영 체제 보안 업데이트.
  • 2022년 11월 15일

    • [SPARK-40646] 구조체, 맵 및 배열에 대한 JSON 구문 분석이 수정되었으므로 레코드의 일부가 스키마와 일치하지 않는 경우 null을 반환하는 대신 나머지 레코드를 올바르게 구문 분석할 수 있습니다. 향상된 동작을 옵트인하려면 spark.sql.json.enablePartialResultstrue로 설정합니다. 플래그는 원래 동작을 유지하기 위해 기본적으로 사용하지 않도록 설정됩니다.
    • 운영 체제 보안 업데이트.
  • 2022년 11월 1일

    • Apache commons-text를 1.10.0으로 업그레이드했습니다.
    • Delta 테이블에 _change_type라는 사용자 정의 열이 있지만 해당 테이블에서 데이터 피드 변경이 비활성화된 경우 MERGE를 실행할 때 해당 열의 데이터가 NULL 값으로 잘못 채워지는 문제를 해결했습니다.
    • MERGE를 실행하고 조건의 원본에서 정확히 99개의 열을 사용하면 java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow가 발생할 수 있는 문제를 해결했습니다.
    • allowOverwrites가 사용하도록 설정된 경우 동일한 마이크로 일괄 처리에서 파일을 복제할 수 있는 자동 로더 문제를 해결했습니다.
    • [SPARK-40697][SQL] 외부 데이터 파일을 커버하는 읽기 쪽 char 패딩 추가
    • [SPARK-40596][CORE] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
    • 운영 체제 보안 업데이트.
  • 2022년 10월 18일

    • Unity 카탈로그 사용 클러스터/웨어하우스에서 임시 자격 증명이 있는 COPY INTO 사용 문제를 해결했습니다.
    • [SPARK-40213][SQL] 라틴어-1 문자에 대한 ASCII 값 변환 지원
    • 운영 체제 보안 업데이트.
  • 2022년 10월 5일 수요일

    • 사용자는 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")를 설정하여 ADLS Gen2에서 자동 로더에 대한 네이티브 목록을 다시 사용하도록 설정할 수 있습니다. 네이티브 목록은 이전에 성능 문제로 인해 꺼졌지만 고객의 스토리지 비용이 증가했을 수 있습니다. 이 변경 내용은 이전 유지 관리 업데이트에서 DBR 10.4 및 9.1로 롤아웃되었습니다.
    • [SPARK-40169] 데이터 스키마에 대한 참조 없이 Parquet 필터를 푸시다운해서는 안 됨
    • [SPARK-40460][SS] _metadata를 선택할 때 스트리밍 메트릭 수정
    • [SPARK-40468][SQL] _corrupt_record가 선택될 때 CSV에서 열 삭제 수정
    • [SPARK-40055][SQL] listCatalogs는 spark_catalog 구현이 defaultSessionCatalog인 경우에도 spark_catalog 반환해야 함
    • 운영 체제 보안 업데이트.
  • 2022년 9월 22일

    • [SPARK-40315][SQL] ArrayBasedMapData의 리터럴에 해시코드() 추가
    • [SPARK-40380][SQL] 계획에 직렬화할 수 없는 리터럴이 포함되지 않도록 InvokeLike의 상수 폴딩 수정
    • [SPARK-40089][SQL] 일부 10진수 형식에 대한 정렬 수정
    • [SPARK-39887][SQL] RemoveRedundantAliases는 프로젝션 노드의 출력을 고유하게 만드는 별칭을 유지해야 함
    • [SPARK-40152][SQL] split_part codegen 컴파일 문제 해결
  • 2022년 9월 6일 화요일

    • ALTER TABLE을 사용하여 테이블의 스키마 또는 테이블 속성을 변경하는 데 MODIFY 권한만 필요하도록 테이블 ACL(테이블 액세스 제어)에서 사용 권한 모델을 업데이트했습니다. 이전에는 이러한 작업을 수행하려면 사용자가 테이블을 소유해야 했습니다. 테이블에 대한 사용 권한을 부여하거나, 소유자를 변경하거나, 위치를 변경하거나, 이름을 바꾸려면 소유권이 여전히 필요합니다. 이렇게 변경하면 테이블 ACL에 대한 권한 모델이 Unity 카탈로그와 더욱 일치하게 됩니다.
    • [SPARK-40235][CORE] Executor.updateDependencies()에서 동기화되는 대신 인터럽트 가능한 잠금 사용
    • [SPARK-40212][SQL] SparkSQL castPartValue가 byte, short 또는 float를 제대로 처리하지 않음
    • [SPARK-40218][SQL] GROUPING SETS는 그룹화 열을 유지해야 함
    • [SPARK-39976][SQL] ArrayIntersect에서 왼쪽 식의 null을 올바르게 처리해야 함
    • [SPARK-40053][CORE][SQL][TESTS] Python 런타임 환경이 필요한 동적 취소 사례에 assume 추가
    • [SPARK-35542][CORE][ML] 수정: 매개 변수 splitsArray, inputCols 및 outputCols가 있는 여러 열에 대해 만들어진 버킷타이저를 저장 후 로드할 수 없음
    • [SPARK-40079][CORE] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사 추가
  • 2022년 8월 24일

    • 공유, 공급자 및 받는 사람은 이제 소유자 변경, 주석 달기 및 이름 바꾸기 SQL 명령을 지원합니다.
    • [SPARK-39983][CORE][SQL] 드라이버에서 직렬화되지 않은 브로드캐스트 관계를 캐시하지 않음
    • [SPARK-39912][SPARK-39828][SQL] CatalogImpl 구체화
    • [SPARK-39775][CORE][AVRO] Avro 스키마를 구문 분석할 때 기본값 유효성 검사 사용 안 함
    • [SPARK-39806] METADATA 구조체에 액세스하는 쿼리가 분할된 테이블에서 충돌하는 문제 해결
    • [SPARK-39867][SQL] 전역 제한은 OrderPreservingUnaryNode를 상속하지 않아야 함
    • [SPARK-39962][PYTHON][SQL] 그룹 특성이 비어 있는 경우 프로젝션 적용
    • [SPARK-39839][SQL] UnsafeRow 구조적 무결성 검사에서 offsetAndSize가 0이 아니고 가변 길이 10진이 null인 특수한 경우 처리
    • [SPARK-39713][SQL] ANSI 모드: INVALID_ARRAY_INDEX 오류에 try_element_at 사용 제안 추가
    • [SPARK-39847][SS] 호출자 스레드가 중단된 경우 RocksDBLoader.loadLibrary()에서 경합 상태 수정
    • [SPARK-39731][SQL] CORRECTED 시간 파서 정책을 사용하여 날짜를 “yyyyMMdd” 형식으로 구문 분석할 때 CSV 및 JSON 데이터 원본의 문제 해결
    • 운영 체제 보안 업데이트.
  • 2022년 8월 10일

    • 테이블 액세스 제어가 있는 델타 테이블의 경우 이제 이러한 테이블에 대한 MODIFY 권한이 있는 모든 사용자가 INSERTMERGE와 같은 DML 문을 통한 자동 스키마 진화를 사용할 수 있습니다. 또한 COPY INTO로 스키마 진화를 수행하는 데 필요한 권한은 이제 다른 명령과의 일관성을 위해 OWNER에서 MODIFY로 낮아졌습니다. 이러한 변경으로 인해 테이블 ACL 보안 모델은 Unity 카탈로그 보안 모델뿐만 아니라 테이블 바꾸기와 같은 다른 작업과 더욱 일치하게 됩니다.
    • [SPARK-39889] 0으로 나누기의 오류 메시지 향상
    • [SPARK-39795] [SQL] 새 SQL 함수: try_to_timestamp
    • [SPARK-39749] ANSI 모드에서 10진수를 문자열로 캐스팅할 때 항상 일반 문자열 표현 사용
    • [SPARK-39625] df.as를 df.to로 이름 바꾸기
    • [SPARK-39787] [SQL] to_timestamp 함수의 구문 분석 오류에 오류 클래스 사용
    • [SPARK-39625] [SQL] Dataset.as(StructType) 추가
    • [SPARK-39689] CSV 데이터 원본에서 2자 lineSep 지원
    • [SPARK-39579] [SQL][PYTHON][R] ListFunctions/getFunction/functionExists를 3계층 네임스페이스와 호환되도록 함
    • [SPARK-39702] [CORE] 공유 byteRawChannel을 사용하여 TransportCipher$EncryptedMessage의 메모리 오버헤드 줄이기
    • [SPARK-39575] [AVRO] AvroDeserializer에서 ByteBuffer#get 다음에 ByteBuffer#rewind 추가
    • [SPARK-39265] [SQL] SPARK_ANSI_SQL_MODE가 사용하도록 설정된 경우 테스트 실패 수정
    • [SPARK-39441] [SQL] DeduplicateRelations 속도 향상
    • [SPARK-39497] [SQL] 누락된 맵 키 열의 분석 예외 개선
    • [SPARK-39476] [SQL] Long에서 Float/Double로 또는 정수에서 Float로 캐스팅할 때 래핑 해제 캐스트 최적화 사용 안 함
    • [SPARK-39434] [SQL] 배열 인덱스가 경계를 벗어나면 런타임 오류 쿼리 컨텍스트 제공

Databricks Runtime 11.0(EoS)

Databricks Runtime 11.0(EoS)을 참조하세요.

  • 2022년 11월 29일
    • 사용자는 Redshift 커넥터를 사용하여 데이터를 작성할 때 선행 및 후행 공백의 동작을 구성할 수 있습니다. 공백 처리를 제어하기 위해 다음 옵션이 추가되었습니다.
      • true로 설정하면 csvignoreleadingwhitespacetempformatCSV 또는 CSV GZIP로 설정된 경우 쓰기 중 값에서 선행 공백을 제거합니다. 구성을 false로 설정하면 공백이 유지됩니다. 기본적으로 값은 true입니다.
      • true로 설정하면 csvignoretrailingwhitespacetempformatCSV 또는 CSV GZIP로 설정된 경우 쓰기 중 값에서 후행 공백을 제거합니다. 구성을 false로 설정하면 공백이 유지됩니다. 기본적으로 값은 true입니다.
    • 모든 열이 문자열(cloudFiles.inferColumnTypesfalse로 설정되거나 설정되지 않음)으로 남아 있고 JSON에 중첩된 개체가 포함된 경우 자동 로더에서 JSON 구문 분석 버그가 수정되었습니다.
    • [SPARK-39650] [SS] 이전 버전과의 호환성이 있는 스트리밍 중복 제거의 잘못된 값 스키마 수정
    • 운영 체제 보안 업데이트.
  • 2022년 11월 15일
    • [SPARK-40646] 구조체, 맵 및 배열에 대한 JSON 구문 분석이 수정되었으므로 레코드의 일부가 스키마와 일치하지 않는 경우 null을 반환하는 대신 나머지 레코드를 올바르게 구문 분석할 수 있습니다. 향상된 동작을 옵트인하려면 spark.sql.json.enablePartialResultstrue로 설정합니다. 플래그는 원래 동작을 유지하기 위해 기본적으로 사용하지 않도록 설정됩니다.
  • 2022년 11월 1일
    • Apache commons-text를 1.10.0으로 업그레이드했습니다.
    • Delta 테이블에 _change_type라는 사용자 정의 열이 있지만 해당 테이블에서 데이터 피드 변경이 비활성화된 경우 MERGE를 실행할 때 해당 열의 데이터가 NULL 값으로 잘못 채워지는 문제를 해결했습니다.
    • allowOverwrites가 사용하도록 설정된 경우 동일한 마이크로 일괄 처리에서 파일을 복제할 수 있는 자동 로더 문제를 해결했습니다.
    • [SPARK-40697][SQL] 외부 데이터 파일을 커버하는 읽기 쪽 char 패딩 추가
    • [SPARK-40596][CORE] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
    • 운영 체제 보안 업데이트.
  • 2022년 10월 18일
    • [SPARK-40213][SQL] 라틴어-1 문자에 대한 ASCII 값 변환 지원
    • 운영 체제 보안 업데이트.
  • 2022년 10월 5일
    • 사용자는 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")를 설정하여 ADLS Gen2에서 자동 로더에 대한 네이티브 목록을 다시 사용하도록 설정할 수 있습니다. 네이티브 목록은 이전에 성능 문제로 인해 꺼졌지만 고객의 스토리지 비용이 증가했을 수 있습니다. 이 변경 내용은 이전 유지 관리 업데이트에서 DBR 10.4 및 9.1로 롤아웃되었습니다.
    • [SPARK-40169] 데이터 스키마에 대한 참조 없이 Parquet 필터를 푸시다운해서는 안 됨
    • [SPARK-40460][SS] _metadata를 선택할 때 스트리밍 메트릭 수정
    • [SPARK-40468][SQL] _corrupt_record가 선택될 때 CSV에서 열 삭제 수정
    • 운영 체제 보안 업데이트.
  • 2022년 9월 22일
    • [SPARK-40315][SQL] ArrayBasedMapData의 리터럴에 해시코드() 추가
    • [SPARK-40380][SQL] 계획에 직렬화할 수 없는 리터럴이 포함되지 않도록 InvokeLike의 상수 폴딩 수정
    • [SPARK-40089][SQL] 일부 10진수 형식에 대한 정렬 수정
    • [SPARK-39887][SQL] RemoveRedundantAliases는 프로젝션 노드의 출력을 고유하게 만드는 별칭을 유지해야 함
    • [SPARK-40152][SQL] split_part codegen 컴파일 문제 해결
  • 2022년 9월 6일
    • [SPARK-40235][CORE] Executor.updateDependencies()에서 동기화되는 대신 인터럽트 가능한 잠금 사용
    • [SPARK-40212][SQL] SparkSQL castPartValue가 byte, short 또는 float를 제대로 처리하지 않음
    • [SPARK-40218][SQL] GROUPING SETS는 그룹화 열을 유지해야 함
    • [SPARK-39976][SQL] ArrayIntersect에서 왼쪽 식의 null을 올바르게 처리해야 함
    • [SPARK-40053][CORE][SQL][TESTS] Python 런타임 환경이 필요한 동적 취소 사례에 assume 추가
    • [SPARK-35542][CORE][ML] 수정: 매개 변수 splitsArray, inputCols 및 outputCols가 있는 여러 열에 대해 만들어진 버킷타이저를 저장 후 로드할 수 없음
    • [SPARK-40079][CORE] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사 추가
  • 2022년 8월 24일
    • [SPARK-39983][CORE][SQL] 드라이버에서 직렬화되지 않은 브로드캐스트 관계를 캐시하지 않음
    • [SPARK-39775][CORE][AVRO] Avro 스키마를 구문 분석할 때 기본값 유효성 검사 사용 안 함
    • [SPARK-39806] METADATA 구조체에 액세스하는 쿼리가 분할된 테이블에서 충돌하는 문제 해결
    • [SPARK-39867][SQL] 전역 제한은 OrderPreservingUnaryNode를 상속하지 않아야 함
    • [SPARK-39962][PYTHON][SQL] 그룹 특성이 비어 있는 경우 프로젝션 적용
    • 운영 체제 보안 업데이트.
  • 2022년 8월 9일
    • [SPARK-39713][SQL] ANSI 모드: INVALID_ARRAY_INDEX 오류에 try_element_at 사용 제안 추가
    • [SPARK-39847] 호출자 스레드가 중단된 경우 RocksDBLoader.loadLibrary()에서 경합 상태 수정
    • [SPARK-39731][SQL] CORRECTED 시간 파서 정책을 사용하여 날짜를 “yyyyMMdd” 형식으로 구문 분석할 때 CSV 및 JSON 데이터 원본의 문제 해결
    • [SPARK-39889] 0으로 나누기의 오류 메시지 향상
    • [SPARK-39795][SQL] 새 SQL 함수: try_to_timestamp
    • [SPARK-39749] ANSI 모드에서 10진수를 문자열로 캐스팅할 때 항상 일반 문자열 표현 사용
    • [SPARK-39625][SQL] Dataset.to(StructType) 추가
    • [SPARK-39787][SQL] to_timestamp 함수의 구문 분석 오류에 오류 클래스 사용
    • 운영 체제 보안 업데이트.
  • 2022년 7월 27일
    • [SPARK-39689]CSV 데이터 원본에서 2자 lineSep 지원
    • [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded는 스레드로부터 안전해야 함
    • [SPARK-39702][CORE] 공유 byteRawChannel을 사용하여 TransportCipher$EncryptedMessage의 메모리 오버헤드 줄이기
    • [SPARK-39575][AVRO] AvroDeserializer에서 ByteBuffer#get 다음에 ByteBuffer#rewind 추가
    • [SPARK-39497][SQL] 누락된 맵 키 열의 분석 예외 개선
    • [SPARK-39441][SQL] DeduplicateRelations 속도 향상
    • [SPARK-39476][SQL] Long에서 Float/Double로 또는 정수에서 Float로 캐스팅할 때 래핑 해제 캐스트 최적화 사용 안 함
    • [SPARK-39434][SQL] 배열 인덱스가 경계를 벗어나면 런타임 오류 쿼리 컨텍스트 제공
    • [SPARK-39570][SQL] 인라인 테이블은 별칭이 있는 식을 허용해야 함
    • 운영 체제 보안 업데이트.
  • 2022년 7월 13일
    • 원본이 비결정적일 때 Delta MERGE 작업 결과를 일관되게 만듭니다.
    • 비 DBFS 경로에서 실행할 때 cloud_files_state TVF에 대한 문제를 해결했습니다.
    • Azure에서 디렉터리 목록에 대해 자동 로더가 기본 클라우드 API를 사용하지 않도록 설정했습니다.
    • [SPARK-38796][SQL] 양수의 PR을 허용하도록 to_number 및 try_to_number 함수 업데이트
    • [SPARK-39272][SQL] 쿼리 컨텍스트의 시작 위치를 1로 늘림
    • [SPARK-39419][SQL] 비교자가 null을 반환할 때 예외를 throw하도록 ArraySort 수정
    • 운영 체제 보안 업데이트.
  • 2022년 7월 5일
    • 다양한 오류 클래스에 대한 오류 메시지 개선.
    • [SPARK-39451][SQL] ANSI 모드에서 정수로 캐스팅 간격 지원
    • [SPARK-39361] 기본 로깅 구성에서 Log4J2의 확장된 throw 가능 변환 패턴을 사용하지 마세요.
    • [SPARK-39354][SQL] 동시에 Filter와 관련된 dataTypeMismatchError가 있더라도 Table or view not found를 표시해야 함
    • [SPARK-38675][CORE] BlockInfoManager에서 잠금 해제 중 경합 수정
    • [SPARK-39392][SQL] try_* 함수 힌트에 대한 ANSI 오류 메시지 구체화
    • [SPARK-39214][SQL][3.3] CAST와 관련된 오류 개선
    • [SPARK-37939][SQL] 속성의 구문 분석 오류에 오류 클래스 사용
    • [SPARK-39085][SQL] INCONSISTENT_BEHAVIOR_CROSS_VERSION의 오류 메시지를 error-classes.json으로 이동
    • [SPARK-39376][SQL] NATURAL/USING JOIN에서 하위 쿼리 별칭의 별 확장에서 중복 열 숨기기
    • [SPARK-39283][CORE] TaskMemoryManager와 UnsafeExternalSorter.SpillableIterator 간의 교착 상태 수정
    • [SPARK-39285][SQL] Spark는 파일을 읽을 때 필드 이름을 확인하지 않아야 합니다.
    • 운영 체제 보안 업데이트.

Databricks Runtime 10.5(EoS)

Databricks Runtime 10.5(EoS)을 참조하세요.

  • 2022년 11월 1일
    • Delta 테이블에 _change_type라는 사용자 정의 열이 있지만 해당 테이블에서 데이터 피드 변경이 비활성화된 경우 MERGE를 실행할 때 해당 열의 데이터가 NULL 값으로 잘못 채워지는 문제를 해결했습니다.
    • [SPARK-40697][SQL] 외부 데이터 파일을 커버하는 읽기 쪽 char 패딩 추가
    • [SPARK-40596][CORE] ExecutorDecommissionInfo의 메시지로 ExecutorDecommission 채우기
    • 운영 체제 보안 업데이트.
  • 2022년 10월 18일
    • 운영 체제 보안 업데이트.
  • 2022년 10월 5일
    • 사용자는 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true")를 설정하여 ADLS Gen2에서 자동 로더에 대한 네이티브 목록을 다시 사용하도록 설정할 수 있습니다. 네이티브 목록은 이전에 성능 문제로 인해 꺼졌지만 고객의 스토리지 비용이 증가했을 수 있습니다. 이 변경 내용은 이전 유지 관리 업데이트에서 DBR 10.4 및 9.1로 롤아웃되었습니다.
    • reload4j가 취약성을 수정하기 위해 1.2.19로 업그레이드되었습니다.
    • [SPARK-40460][SS] _metadata를 선택할 때 스트리밍 메트릭 수정
    • [SPARK-40468][SQL] _corrupt_record가 선택될 때 CSV에서 열 삭제 수정
    • 운영 체제 보안 업데이트.
  • 2022년 9월 22일
    • [SPARK-40315][SQL] ArrayBasedMapData의 리터럴에 해시코드() 추가
    • [SPARK-40213][SQL] 라틴어-1 문자에 대한 ASCII 값 변환 지원
    • [SPARK-40380][SQL] 계획에 직렬화할 수 없는 리터럴이 포함되지 않도록 InvokeLike의 상수 폴딩 수정
    • [SPARK-38404][SQL] 중첩된 CTE가 외부 CTE를 참조할 때 CTE 해상도 개선
    • [SPARK-40089][SQL] 일부 10진수 형식에 대한 정렬 수정
    • [SPARK-39887][SQL] RemoveRedundantAliases는 프로젝션 노드의 출력을 고유하게 만드는 별칭을 유지해야 함
    • 운영 체제 보안 업데이트.
  • 2022년 9월 6일
    • [SPARK-40235][CORE] Executor.updateDependencies()에서 동기화되는 대신 인터럽트 가능한 잠금 사용
    • [SPARK-39976][SQL] ArrayIntersect에서 왼쪽 식의 null을 올바르게 처리해야 함
    • [SPARK-40053][CORE][SQL][TESTS] Python 런타임 환경이 필요한 동적 취소 사례에 assume 추가
    • [SPARK-35542][CORE][ML] 수정: 매개 변수 splitsArray, inputCols 및 outputCols가 있는 여러 열에 대해 만들어진 버킷타이저를 저장 후 로드할 수 없음
    • [SPARK-40079][CORE] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사 추가
  • 2022년 8월 24일
    • [SPARK-39983][CORE][SQL] 드라이버에서 직렬화되지 않은 브로드캐스트 관계를 캐시하지 않음
    • [SPARK-39775][CORE][AVRO] Avro 스키마를 구문 분석할 때 기본값 유효성 검사 사용 안 함
    • [SPARK-39806] METADATA 구조체에 액세스하는 쿼리가 분할된 테이블에서 충돌하는 문제 해결
    • [SPARK-39962][PYTHON][SQL] 그룹 특성이 비어 있는 경우 프로젝션 적용
    • [SPARK-37643][SQL] charVarcharAsString이 true이면 for char datatype 조건자 쿼리에서 rpadding 규칙을 건너뛰어야 합니다.
    • 운영 체제 보안 업데이트.
  • 2022년 8월 9일
    • [SPARK-39847] 호출자 스레드가 중단된 경우 RocksDBLoader.loadLibrary()에서 경합 상태 수정
    • [SPARK-39731][SQL] CORRECTED 시간 파서 정책을 사용하여 날짜를 “yyyyMMdd” 형식으로 구문 분석할 때 CSV 및 JSON 데이터 원본의 문제 해결
    • 운영 체제 보안 업데이트.
  • 2022년 7월 27일
    • [SPARK-39625][SQL] Dataset.as(StructType) 추가
    • [SPARK-39689]CSV 데이터 원본에서 2자 lineSep 지원
    • [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded는 스레드로부터 안전해야 함
    • [SPARK-39570][SQL] 인라인 테이블은 별칭이 있는 식을 허용해야 함
    • [SPARK-39702][CORE] 공유 byteRawChannel을 사용하여 TransportCipher$EncryptedMessage의 메모리 오버헤드 줄이기
    • [SPARK-39575][AVRO] AvroDeserializer에서 ByteBuffer#get 다음에 ByteBuffer#rewind 추가
    • [SPARK-39476][SQL] Long에서 Float/Double로 또는 정수에서 Float로 캐스팅할 때 래핑 해제 캐스트 최적화 사용 안 함
    • 운영 체제 보안 업데이트.
  • 2022년 7월 13일
    • 원본이 비결정적일 때 Delta MERGE 작업 결과를 일관되게 만듭니다.
    • [SPARK-39355][SQL] 단일 열은 따옴표를 사용하여 UnresolvedAttribute를 구성합니다.
    • [SPARK-39548][SQL] 창 절 쿼리가 있는 CreateView 명령에서 잘못된 창 정의를 찾을 수 없음 문제가 발생했습니다.
    • [SPARK-39419][SQL] 비교자가 null을 반환할 때 예외를 throw하도록 ArraySort 수정
    • Azure에서 디렉터리 목록에 대해 자동 로더가 기본 클라우드 API를 사용하지 않도록 설정했습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 7월 5일
    • [SPARK-39376][SQL] NATURAL/USING JOIN에서 하위 쿼리 별칭의 별 확장에서 중복 열 숨기기
    • 운영 체제 보안 업데이트.
  • 2022년 6월 15일
    • [SPARK-39283][CORE] TaskMemoryManager와 UnsafeExternalSorter.SpillableIterator 간의 교착 상태 수정
    • [SPARK-39285][SQL] Spark는 파일을 읽을 때 필드 이름을 확인하지 않아야 합니다.
    • [SPARK-34096][SQL] 오프셋 창에서 null을 무시하는 nth_value의 성능 향상
    • [SPARK-36718][SQL][FOLLOWUP] CollapseProject에서 isExtractOnly 확인 수정
  • 2022년 6월 2일
    • [SPARK-39166][SQL] WSCG가 꺼져 있을 때 이진 산술에 대한 런타임 오류 쿼리 컨텍스트 제공
    • [SPARK-39093][SQL] 연월 간격 또는 일시 간격을 정수로 나눌 때 코드 생성 컴파일 오류 방지
    • [SPARK-38990][SQL] date_trunc/trunc 형식을 바인딩된 참조로 평가할 때 NullPointerException 방지
    • 운영 체제 보안 업데이트.
  • 2022년 5월 18일
    • 자동 로더에서 잠재적인 네이티브 메모리 누수 문제를 해결합니다.
    • [SPARK-38868][SQL] 외부 조인을 최적화할 때 필터 조건자에서 예외를 전파하지 않음
    • [SPARK-38796][SQL] 새 사양에 따라 to_number 및 try_to_number SQL 함수 구현
    • [SPARK-38918][SQL] 중첩 열 정리는 현재 관계에 속하지 않는 특성을 필터링함
    • [SPARK-38929][SQL] ANSI에서 캐스트 오류에 대한 오류 메시지 개선
    • [SPARK-38926][SQL] SQL 스타일의 오류 메시지 출력 형식
    • [SPARK-39084][PYSPARK] 작업 완료 시 반복기를 중지하도록 TaskContext를 사용하여 df.rdd.isEmpty() 수정
    • [SPARK-32268][SQL] injectBloomFilter에서 ColumnPruning 추가
    • [SPARK-38908][SQL] 문자열에서 숫자/날짜/타임스탬프/부울로 캐스팅할 때 발생하는 런타임 오류에 쿼리 컨텍스트 제공
    • [SPARK-39046][SQL] TreeNode.origin이 잘못 설정된 경우 빈 컨텍스트 문자열 반환
    • [SPARK-38974][SQL] 목록 함수에서 지정된 데이터베이스 이름으로 등록된 함수 필터링
    • [SPARK-38762][SQL] Decimal 오버플로 오류에 쿼리 컨텍스트 제공
    • [SPARK-38931][SS] 첫 번째 검사점에서 알 수 없는 수의 키를 사용하여 RocksDBFileManager에 대한 루트 dfs 디렉터리 만들기
    • [SPARK-38992][CORE] ShellBasedGroupsMappingProvider에서 bash -c 사용 방지
    • [SPARK-38716][SQL] 맵 키가 없음 오류에 쿼리 컨텍스트 제공
    • [SPARK-38889][SQL] MSSQL 데이터 원본에 비트 형식을 사용하도록 부울 열 필터 컴파일
    • [SPARK-38698][SQL] Divide/Div/Reminder/Pmod의 런타임 오류에 쿼리 컨텍스트 제공
    • [SPARK-38823][SQL] 집계 버퍼 손상 문제를 해결하기 위해 NewInstance를 폴딩할 수 없게 만들기
    • [SPARK-38809][SS] 스트림-스트림 조인의 대칭 해시 구현에서 null 값을 건너뛰는 옵션 구현
    • [SPARK-38676][SQL] 더하기/빼기/곱하기의 런타임 오류 메시지에 SQL 쿼리 컨텍스트 제공
    • [SPARK-38677][PYSPARK] Python MonitorThread는 I/O 차단으로 인한 교착 상태를 감지해야 함
    • 운영 체제 보안 업데이트.

Databricks Runtime 10.3(EoS)

Databricks Runtime 10.3(EoS)을 참조하세요.

  • 2022년 7월 27일
    • [SPARK-39689]CSV 데이터 원본에서 2자 lineSep 지원
    • [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded는 스레드로부터 안전해야 함
    • [SPARK-39702][CORE] 공유 byteRawChannel을 사용하여 TransportCipher$EncryptedMessage의 메모리 오버헤드 줄이기
    • 운영 체제 보안 업데이트.
  • 2022년 7월 20일
    • 원본이 비결정적일 때 Delta MERGE 작업 결과를 일관되게 만듭니다.
    • [SPARK-39476][SQL] Long에서 Float/Double로 또는 정수에서 Float로 캐스팅할 때 래핑 해제 캐스트 최적화 사용 안 함
    • [SPARK-39548][SQL] 창 절 쿼리가 있는 CreateView 명령에서 잘못된 창 정의를 찾을 수 없음 문제가 발생했습니다.
    • [SPARK-39419][SQL] 비교자가 null을 반환할 때 예외를 throw하도록 ArraySort 수정
    • 운영 체제 보안 업데이트.
  • 2022년 7월 5일
    • [SPARK-39376][SQL] NATURAL/USING JOIN에서 하위 쿼리 별칭의 별 확장에서 중복 열 숨기기
    • 운영 체제 보안 업데이트.
  • 2022년 6월 15일
    • [SPARK-39283][CORE] TaskMemoryManager와 UnsafeExternalSorter.SpillableIterator 간의 교착 상태 수정
    • [SPARK-39285][SQL] Spark는 파일을 읽을 때 필드 이름을 확인하지 않아야 합니다.
    • [SPARK-34096][SQL] 오프셋 창에서 null을 무시하는 nth_value의 성능 향상
    • [SPARK-36718][SQL][FOLLOWUP] CollapseProject에서 isExtractOnly 확인 수정
  • 2022년 6월 2일
    • [SPARK-38990][SQL] date_trunc/trunc 형식을 바인딩된 참조로 평가할 때 NullPointerException 방지
    • 운영 체제 보안 업데이트.
  • 2022년 5월 18일
    • 자동 로더에서 잠재적인 네이티브 메모리 누수 문제를 해결합니다.
    • [SPARK-38918][SQL] 중첩 열 정리는 현재 관계에 속하지 않는 특성을 필터링함
    • [SPARK-37593][CORE] G1GC 및 ON_HEAP이 사용되는 경우 LONG_ARRAY_OFFSET으로 기본 페이지 크기 축소
    • [SPARK-39084][PYSPARK] 작업 완료 시 반복기를 중지하도록 TaskContext를 사용하여 df.rdd.isEmpty() 수정
    • [SPARK-32268][SQL] injectBloomFilter에서 ColumnPruning 추가
    • [SPARK-38974][SQL] 목록 함수에서 지정된 데이터베이스 이름으로 등록된 함수 필터링
    • [SPARK-38889][SQL] MSSQL 데이터 원본에 비트 형식을 사용하도록 부울 열 필터 컴파일
    • 운영 체제 보안 업데이트.
  • 2022년 5월 4일
    • Java AWS SDK를 버전 1.11.655에서 1.12.1899로 업그레이드했습니다.
  • 2022년 4월 19일
    • [SPARK-38616][SQL] Catalyst TreeNode에서 SQL 쿼리 텍스트 추적
    • 운영 체제 보안 업데이트.
  • 2022년 4월 6일
    • [SPARK-38631][CORE] Utils.unpack에서 un-tarring에 Java 기반 구현 사용
    • 운영 체제 보안 업데이트.
  • 2022년 3월 22일
    • 테이블 액세스 제어 또는 자격 증명 통과를 사용하도록 설정한 높은 동시성 클러스터에서 Notebook의 현재 작업 디렉터리는 이제 사용자의 홈 디렉터리입니다. 이전에는 작업 디렉터리가 /databricks/driver이었습니다.
    • [SPARK-38437][SQL] 데이터 원본에서 datetime의 Lenient serialization
    • [SPARK-38180][SQL] 상관 관계가 있는 같음 조건자에서 안전한 업캐스트 식 허용
    • [SPARK-38155][SQL] 지원되지 않는 조건자를 사용하여 횡적 하위 쿼리에서 고유 집계 허용 안 함
    • [SPARK-38325][SQL] ANSI 모드: HashJoin.extractKeyExprAt()에서 잠재적인 런타임 오류 방지
  • 2022년 3월 14일
    • Delta Lake의 빈 트랜잭션에 대한 트랜잭션 충돌 검색이 개선되었습니다.
    • [SPARK-38185][SQL] 집계 함수가 비어 있는 경우 잘못된 데이터 수정
    • [SPARK-38318][SQL] 데이터 세트 뷰 교체 시 회귀
    • [SPARK-38236][SQL] create/alter table에 지정된 절대 파일 경로는 상대 경로로 처리됩니다.
    • [SPARK-35937][SQL] 타임스탬프에서 날짜 필드를 추출하면 ANSI 모드에서 작동해야 합니다.
    • [SPARK-34069][SQL] 킬 장벽 작업은 SPARK_JOB_INTERRUPT_ON_CANCEL을 준수해야 합니다.
    • [SPARK-37707][SQL] TimestampNTZ와 Date/Timestamp 간의 저장소 할당을 허용합니다.
  • 2022년 2월 23일
    • [SPARK-27442][SQL] parquet에서 데이터 읽기/쓰기 시 확인 필드 이름이 제거되었습니다.

Databricks Runtime 10.2(EoS)

Databricks Runtime 10.2(EoS)을 참조하세요.

  • 2022년 6월 15일
    • [SPARK-39283][CORE] TaskMemoryManager와 UnsafeExternalSorter.SpillableIterator 간의 교착 상태 수정
    • [SPARK-39285][SQL] Spark는 파일을 읽을 때 필드 이름을 확인하지 않아야 합니다.
    • [SPARK-34096][SQL] 오프셋 창에서 null을 무시하는 nth_value의 성능 향상
  • 2022년 6월 2일
    • [SPARK-38918][SQL] 중첩 열 정리는 현재 관계에 속하지 않는 특성을 필터링함
    • [SPARK-38990][SQL] date_trunc/trunc 형식을 바인딩된 참조로 평가할 때 NullPointerException 방지
    • 운영 체제 보안 업데이트.
  • 2022년 5월 18일
    • 자동 로더에서 잠재적인 네이티브 메모리 누수 문제를 해결합니다.
    • [SPARK-39084][PYSPARK] 작업 완료 시 반복기를 중지하도록 TaskContext를 사용하여 df.rdd.isEmpty() 수정
    • [SPARK-38889][SQL] MSSQL 데이터 원본에 비트 형식을 사용하도록 부울 열 필터 컴파일
    • [SPARK-38931][SS] 첫 번째 검사점에서 알 수 없는 수의 키를 사용하여 RocksDBFileManager에 대한 루트 dfs 디렉터리 만들기
    • 운영 체제 보안 업데이트.
  • 2022년 5월 4일
    • Java AWS SDK를 버전 1.11.655에서 1.12.1899로 업그레이드했습니다.
  • 2022년 4월 19일
    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 4월 6일
    • [SPARK-38631][CORE] Utils.unpack에서 un-tarring에 Java 기반 구현 사용
    • 운영 체제 보안 업데이트.
  • 2022년 3월 22일
    • 테이블 액세스 제어 또는 자격 증명 통과를 사용하도록 설정한 높은 동시성 클러스터에서 Notebook의 현재 작업 디렉터리는 이제 사용자의 홈 디렉터리입니다. 이전에는 작업 디렉터리가 /databricks/driver이었습니다.
    • [SPARK-38437][SQL] 데이터 원본에서 datetime의 Lenient serialization
    • [SPARK-38180][SQL] 상관 관계가 있는 같음 조건자에서 안전한 업캐스트 식 허용
    • [SPARK-38155][SQL] 지원되지 않는 조건자를 사용하여 횡적 하위 쿼리에서 고유 집계 허용 안 함
    • [SPARK-38325][SQL] ANSI 모드: HashJoin.extractKeyExprAt()에서 잠재적인 런타임 오류 방지
  • 2022년 3월 14일
    • Delta Lake의 빈 트랜잭션에 대한 트랜잭션 충돌 검색이 개선되었습니다.
    • [SPARK-38185][SQL] 집계 함수가 비어 있는 경우 잘못된 데이터 수정
    • [SPARK-38318][SQL] 데이터 세트 뷰 교체 시 회귀
    • [SPARK-38236][SQL] create/alter table에 지정된 절대 파일 경로는 상대 경로로 처리됩니다.
    • [SPARK-35937][SQL] 타임스탬프에서 날짜 필드를 추출하면 ANSI 모드에서 작동해야 합니다.
    • [SPARK-34069][SQL] 킬 장벽 작업은 SPARK_JOB_INTERRUPT_ON_CANCEL을 준수해야 합니다.
    • [SPARK-37707][SQL] TimestampNTZ와 Date/Timestamp 간의 저장소 할당을 허용합니다.
  • 2022년 2월 23일
    • [SPARK-37577][SQL] ClassCastException 수정: 정리 생성을 위해 ArrayType을 StructType으로 캐스트할 수 없습니다.
  • 2022년 2월 8일
    • [SPARK-27442][SQL] parquet에서 데이터를 읽고 쓸 때 확인 필드 이름이 제거되었습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 2월 1일
    • 운영 체제 보안 업데이트.
  • 2022년 1월 26일
    • Delta 테이블의 동시 트랜잭션이 특정 드문 조건에서 직렬화할 수 없는 순서로 커밋될 수 있는 버그가 수정되었습니다.
    • ANSI SQL 언어가 사용하도록 설정된 경우 OPTIMIZE 명령이 실패할 수 있는 버그가 수정되었습니다.
  • 2022년 1월 19일
    • SQL ANY_FILE 권한 없이 원본 데이터를 로드하기 위해 COPY INTO에 임시 자격 증명 인라인을 적용하기 위한 지원이 도입되었습니다.
    • 버그 수정 및 보안이 향상되었습니다.
  • 2021년 12월 20일
    • Parquet 열 인덱스 기반 필터링으로 드문 버그가 수정되었습니다.

Databricks Runtime 10.1(EoS)

Databricks Runtime 10.1(EoS)을 참조하세요.

  • 2022년 6월 15일
    • [SPARK-39283][CORE] TaskMemoryManager와 UnsafeExternalSorter.SpillableIterator 간의 교착 상태 수정
    • [SPARK-39285][SQL] Spark는 파일을 읽을 때 필드 이름을 확인하지 않아야 합니다.
    • [SPARK-34096][SQL] 오프셋 창에서 null을 무시하는 nth_value의 성능 향상
  • 2022년 6월 2일
    • 운영 체제 보안 업데이트.
  • 2022년 5월 18일
    • 자동 로더에서 잠재적인 네이티브 메모리 누수 문제를 해결합니다.
    • [SPARK-39084][PYSPARK] 작업 완료 시 반복기를 중지하도록 TaskContext를 사용하여 df.rdd.isEmpty() 수정
    • [SPARK-38889][SQL] MSSQL 데이터 원본에 비트 형식을 사용하도록 부울 열 필터 컴파일
    • 운영 체제 보안 업데이트.
  • 2022년 4월 19일
    • [SPARK-37270][SQL] elseValue가 비어 있는 경우 CaseWhen 분기로 폴더블 푸시 수정
    • 운영 체제 보안 업데이트.
  • 2022년 4월 6일
    • [SPARK-38631][CORE] Utils.unpack에서 un-tarring에 Java 기반 구현 사용
    • 운영 체제 보안 업데이트.
  • 2022년 3월 22일
    • [SPARK-38437][SQL] 데이터 원본에서 datetime의 Lenient serialization
    • [SPARK-38180][SQL] 상관 관계가 있는 같음 조건자에서 안전한 업캐스트 식 허용
    • [SPARK-38155][SQL] 지원되지 않는 조건자를 사용하여 횡적 하위 쿼리에서 고유 집계 허용 안 함
    • [SPARK-38325][SQL] ANSI 모드: HashJoin.extractKeyExprAt()에서 잠재적인 런타임 오류 방지
  • 2022년 3월 14일
    • Delta Lake의 빈 트랜잭션에 대한 트랜잭션 충돌 검색이 개선되었습니다.
    • [SPARK-38185][SQL] 집계 함수가 비어 있는 경우 잘못된 데이터 수정
    • [SPARK-38318][SQL] 데이터 세트 뷰 교체 시 회귀
    • [SPARK-38236][SQL] create/alter table에 지정된 절대 파일 경로는 상대 경로로 처리됩니다.
    • [SPARK-35937][SQL] 타임스탬프에서 날짜 필드를 추출하면 ANSI 모드에서 작동해야 합니다.
    • [SPARK-34069][SQL] 킬 장벽 작업은 SPARK_JOB_INTERRUPT_ON_CANCEL을 준수해야 합니다.
    • [SPARK-37707][SQL] TimestampNTZ와 Date/Timestamp 간의 저장소 할당을 허용합니다.
  • 2022년 2월 23일
    • [SPARK-37577][SQL] ClassCastException 수정: 정리 생성을 위해 ArrayType을 StructType으로 캐스트할 수 없습니다.
  • 2022년 2월 8일
    • [SPARK-27442][SQL] parquet에서 데이터를 읽고 쓸 때 확인 필드 이름이 제거되었습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 2월 1일
    • 운영 체제 보안 업데이트.
  • 2022년 1월 26일
    • Delta 테이블의 동시 트랜잭션이 특정 드문 조건에서 직렬화할 수 없는 순서로 커밋될 수 있는 버그가 수정되었습니다.
    • ANSI SQL 언어가 사용하도록 설정된 경우 OPTIMIZE 명령이 실패할 수 있는 버그가 수정되었습니다.
  • 2022년 1월 19일
    • SQL ANY_FILE 권한 없이 원본 데이터를 로드하기 위해 COPY INTO에 임시 자격 증명 인라인을 적용하기 위한 지원이 도입되었습니다.
    • 특정 조건에서 쿼리 결과 캐싱과 관련된 메모리 부족 문제가 수정되었습니다.
    • 사용자가 현재 카탈로그를 기본이 아닌 카탈로그로 전환할 때 USE DATABASE 관련 문제가 수정되었습니다.
    • 버그 수정 및 보안이 향상되었습니다.
    • 운영 체제 보안 업데이트.
  • 2021년 12월 20일
    • Parquet 열 인덱스 기반 필터링으로 드문 버그가 수정되었습니다.

Databricks Runtime 10.0(EoS)

Databricks Runtime 10.0(EoS)을 참조하세요.

  • 2022년 4월 19일
    • [SPARK-37270][SQL] elseValue가 비어 있는 경우 CaseWhen 분기로 폴더블 푸시 수정
    • 운영 체제 보안 업데이트.
  • 2022년 4월 6일
    • [SPARK-38631][CORE] Utils.unpack에서 un-tarring에 Java 기반 구현 사용
    • 운영 체제 보안 업데이트.
  • 2022년 3월 22일
    • [SPARK-38437][SQL] 데이터 원본에서 datetime의 Lenient serialization
    • [SPARK-38180][SQL] 상관 관계가 있는 같음 조건자에서 안전한 업캐스트 식 허용
    • [SPARK-38155][SQL] 지원되지 않는 조건자를 사용하여 횡적 하위 쿼리에서 고유 집계 허용 안 함
    • [SPARK-38325][SQL] ANSI 모드: HashJoin.extractKeyExprAt()에서 잠재적인 런타임 오류 방지
  • 2022년 3월 14일
    • Delta Lake의 빈 트랜잭션에 대한 트랜잭션 충돌 검색이 개선되었습니다.
    • [SPARK-38185][SQL] 집계 함수가 비어 있는 경우 잘못된 데이터 수정
    • [SPARK-38318][SQL] 데이터 세트 뷰 교체 시 회귀
    • [SPARK-38236][SQL] create/alter table에 지정된 절대 파일 경로는 상대 경로로 처리됩니다.
    • [SPARK-35937][SQL] 타임스탬프에서 날짜 필드를 추출하면 ANSI 모드에서 작동해야 합니다.
    • [SPARK-34069][SQL] 킬 장벽 작업은 SPARK_JOB_INTERRUPT_ON_CANCEL을 준수해야 합니다.
    • [SPARK-37707][SQL] TimestampNTZ와 Date/Timestamp 간의 저장소 할당을 허용합니다.
  • 2022년 2월 23일
    • [SPARK-37577][SQL] ClassCastException 수정: 정리 생성을 위해 ArrayType을 StructType으로 캐스트할 수 없습니다.
  • 2022년 2월 8일
    • [SPARK-27442][SQL] parquet에서 데이터를 읽고 쓸 때 확인 필드 이름이 제거되었습니다.
    • [SPARK-36905][SQL] 명시적 열 이름 없이 읽기 하이브 보기가 수정되었습니다.
    • [SPARK-37859][SQL] Spark 3.1에서 JDBC로 만들어진 SQL 테이블을 3.2에서 읽을 수 없는 문제가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 2월 1일
    • 운영 체제 보안 업데이트.
  • 2022년 1월 26일
    • Delta 테이블의 동시 트랜잭션이 특정 드문 조건에서 직렬화할 수 없는 순서로 커밋될 수 있는 버그가 수정되었습니다.
    • ANSI SQL 언어가 사용하도록 설정된 경우 OPTIMIZE 명령이 실패할 수 있는 버그가 수정되었습니다.
  • 2022년 1월 19일
    • 버그 수정 및 보안이 향상되었습니다.
    • 운영 체제 보안 업데이트.
  • 2021년 12월 20일
    • Parquet 열 인덱스 기반 필터링으로 드문 버그가 수정되었습니다.
  • 2021년 11월 9일
    • ANSI 동작을 세밀하게 제어할 수 있도록 추가 구성 플래그를 도입했습니다.
  • 2021년 11월 4일
    • ArrayIndexOutOfBoundsException으로 인해 구조적 스트리밍 스트림이 실패할 수 있는 버그가 수정되었습니다.
    • java.io.IOException: No FileSystem for scheme과 같은 IOException으로 쿼리 실패를 일으키거나 sparkContext.hadoopConfiguration에 대한 수정 사항이 쿼리에 적용되지 않을 수 있는 경합 상태가 수정되었습니다.
    • Delta 공유용 Apache Spark 커넥터가 0.2.0으로 업그레이드되었습니다.
  • 2021년 11월 30일
    • 콜론이 없는 시간대 문자열이 유효하지 않은 것으로 간주되는 타임스탬프 구문 분석 문제가 수정되었습니다.
    • 특정 조건에서 쿼리 결과 캐싱과 관련된 메모리 부족 문제가 수정되었습니다.
    • 사용자가 현재 카탈로그를 기본이 아닌 카탈로그로 전환할 때 USE DATABASE 관련 문제가 수정되었습니다.

Databricks Runtime 9.0(EoS)

Databricks Runtime 9.0(EoS)을 참조하세요.

  • 2022년 2월 8일
    • 운영 체제 보안 업데이트.
  • 2022년 2월 1일
    • 운영 체제 보안 업데이트.
  • 2022년 1월 26일
    • ANSI SQL 언어가 사용하도록 설정된 경우 OPTIMIZE 명령이 실패할 수 있는 버그가 수정되었습니다.
  • 2022년 1월 19일
    • 버그 수정 및 보안이 향상되었습니다.
    • 운영 체제 보안 업데이트.
  • 2021년 11월 4일
    • ArrayIndexOutOfBoundsException으로 인해 구조적 스트리밍 스트림이 실패할 수 있는 버그가 수정되었습니다.
    • java.io.IOException: No FileSystem for scheme과 같은 IOException으로 쿼리 실패를 일으키거나 sparkContext.hadoopConfiguration에 대한 수정 사항이 쿼리에 적용되지 않을 수 있는 경합 상태가 수정되었습니다.
    • Delta 공유용 Apache Spark 커넥터가 0.2.0으로 업그레이드되었습니다.
  • 2021년 9월 22일
    • null을 문자열로 사용하는 캐스트 Spark 배열의 버그가 수정되었습니다.
  • 2021년 9월 15일
    • java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x와 같은 IOException으로 쿼리 실패를 유발할 수 있는 경합 상태가 수정되었습니다.
  • 2021년 9월 8일
    • Azure Synapse Connector의 대상 테이블 이름으로 스키마 이름(databaseName.schemaName.tableName 형식)에 대한 지원이 추가되었습니다.
    • Spark SQL에 대한 지오메트리 및 지리 JDBC 형식 지원이 추가되었습니다.
    • [SPARK-33527][SQL] 일반 데이터베이스와 일치하도록 디코딩 함수를 확장했습니다.
    • [SPARK-36532][CORE][3.1] executorsconnected를 방지하기 위해 CoarseGrainedExecutorBackend.onDisconnected의 교착 상태가 수정되어 실행기 종료 중단이 방지되었습니다.
  • 2021년 8월 25일
    • SQL Server 드라이버 라이브러리가 9.2.1.jre8로 업그레이드되었습니다.
    • Snowflake 커넥터가 2.9.0으로 업그레이드되었습니다.
    • AutoML 실험 페이지에서 최고의 평가판 Notebook에 대한 끊어진 링크가 수정되었습니다.

Databricks Runtime 8.4(EoS)

Databricks Runtime 8.4(EoS)을 참조하세요.

  • 2022년 1월 19일
    • 운영 체제 보안 업데이트.
  • 2021년 11월 4일
    • ArrayIndexOutOfBoundsException으로 인해 구조적 스트리밍 스트림이 실패할 수 있는 버그가 수정되었습니다.
    • java.io.IOException: No FileSystem for scheme과 같은 IOException으로 쿼리 실패를 일으키거나 sparkContext.hadoopConfiguration에 대한 수정 사항이 쿼리에 적용되지 않을 수 있는 경합 상태가 수정되었습니다.
    • Delta 공유용 Apache Spark 커넥터가 0.2.0으로 업그레이드되었습니다.
  • 2021년 9월 22일
    • Spark JDBC 드라이버가 2.6.19.1030으로 업그레이드되었습니다.
    • [SPARK-36734][SQL] ORC가 1.5.1로 업그레이드되었습니다.
  • 2021년 9월 15일
    • java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x와 같은 IOException으로 쿼리 실패를 유발할 수 있는 경합 상태가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2021년 9월 8일
    • [SPARK-36532][CORE][3.1] executorsconnected를 방지하기 위해 CoarseGrainedExecutorBackend.onDisconnected의 교착 상태가 수정되어 실행기 종료 중단이 방지되었습니다.
  • 2021년 8월 25일
    • SQL Server 드라이버 라이브러리가 9.2.1.jre8로 업그레이드되었습니다.
    • Snowflake 커넥터가 2.9.0으로 업그레이드되었습니다.
    • 파일 액세스 중에 사용자의 통과 자격 증명을 찾을 수 없는 새로운 Parquet 프리페치 최적화로 인한 자격 증명 통과의 버그가 수정되었습니다.
  • 2021년 8월 11일
    • 이전 Databricks Runtime 8.4를 방지하는 RocksDB 비호환성 문제가 수정되었습니다. 이렇게 하면 자동 로더, COPY INTO 및 상태 저장 스트리밍 애플리케이션에 대한 이전 버전과의 호환성이 수정됩니다.
    • 자동 로더를 사용하여 헤더 파일이 일치하지 않는 CSV 파일을 읽을 때 발생하는 버그가 수정되었습니다. 열 이름이 일치하지 않으면 열이 null로 채워집니다. 이제 스키마가 제공되면 스키마가 동일하다고 가정하고 구조된 데이터 열이 사용하도록 설정된 경우에만 열 불일치를 저장합니다.
    • Azure Synapse 커넥터에 externalDataSource이라는 새 옵션을 추가하여 PolyBase 읽기에 대한 데이터베이스의 CONTROL 권한 요구 사항이 제거되었습니다.
  • 2021년 7월 29일
    • [SPARK-36034][BUILD] 푸시다운 필터의 날짜/시간을 Parquet으로 다시 지정합니다.
    • [SPARK-36163][BUILD] JDBC 커넥터 공급자에서 올바른 JDBC 속성을 전파하고 connectionProvider 옵션을 추가합니다.

Databricks Runtime 8.3(EoS)

Databricks Runtime 8.3(EoS)을 참조하세요.

  • 2022년 1월 19일
    • 운영 체제 보안 업데이트.
  • 2021년 11월 4일
    • ArrayIndexOutOfBoundsException으로 인해 구조적 스트리밍 스트림이 실패할 수 있는 버그가 수정되었습니다.
    • java.io.IOException: No FileSystem for scheme과 같은 IOException으로 쿼리 실패를 일으키거나 sparkContext.hadoopConfiguration에 대한 수정 사항이 쿼리에 적용되지 않을 수 있는 경합 상태가 수정되었습니다.
  • 2021년 9월 22일
    • Spark JDBC 드라이버가 2.6.19.1030으로 업그레이드되었습니다.
  • 2021년 9월 15일
    • java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x와 같은 IOException으로 쿼리 실패를 유발할 수 있는 경합 상태가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2021년 9월 8일
    • [SPARK-35700][SQL][WARMFIX] 외부 시스템에서 작성하고 작성할 때 char/varchar orc 테이블을 읽습니다.
    • [SPARK-36532][CORE][3.1] executorsconnected를 방지하기 위해 CoarseGrainedExecutorBackend.onDisconnected의 교착 상태가 수정되어 실행기 종료 중단이 방지되었습니다.
  • 2021년 8월 25일
    • SQL Server 드라이버 라이브러리가 9.2.1.jre8로 업그레이드되었습니다.
    • Snowflake 커넥터가 2.9.0으로 업그레이드되었습니다.
    • 파일 액세스 중에 사용자의 통과 자격 증명을 찾을 수 없는 새로운 Parquet 프리페치 최적화로 인한 자격 증명 통과의 버그가 수정되었습니다.
  • 2021년 8월 11일
    • 자동 로더를 사용하여 헤더 파일이 일치하지 않는 CSV 파일을 읽을 때 발생하는 버그가 수정되었습니다. 열 이름이 일치하지 않으면 열이 null로 채워집니다. 이제 스키마가 제공되면 스키마가 동일하다고 가정하고 구조된 데이터 열이 사용하도록 설정된 경우에만 열 불일치를 저장합니다.
  • 2021년 7월 29일
    • Databricks Snowflake Spark 커넥터를 2.9.0-spark-3.1로 업그레이드
    • [SPARK-36034][BUILD] 푸시다운 필터의 날짜/시간을 Parquet으로 다시 지정합니다.
    • [SPARK-36163][BUILD] JDBC 커넥터 공급자에서 올바른 JDBC 속성을 전파하고 connectionProvider 옵션을 추가합니다.
  • 2021년 7월 14일
    • Azure Synapse 커넥터에서 점이 있는 열 이름을 사용할 때 발생하는 문제가 수정되었습니다.
    • Synapse Connector용 database.schema.table 형식이 도입되었습니다.
    • schemaName.tableName 또는 tableName 대신 databaseName.schemaName.tableName 형식을 대상 테이블로 제공하는 지원이 추가되었습니다.
  • 2021년 6월 15일
    • 많은 양의 데이터를 쓰고 실행기 손실이 발생할 때 발생할 수 있는 Delta Lake 최적화된 쓰기의 NoSuchElementException 버그가 수정되었습니다.
    • SQL CREATE GROUP, DROP GROUP, ALTER GROUP, SHOW GROUPSSHOW USERS 명령이 추가되었습니다. 자세한 내용은 보안 문문 표시를 참고하세요.

Databricks Runtime 8.2(EoS)

Databricks Runtime 8.2(EoS)을 참조하세요.

  • 2021년 9월 22일

    • 운영 체제 보안 업데이트.
  • 2021년 9월 15일

    • java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x와 같은 IOException으로 쿼리 실패를 유발할 수 있는 경합 상태가 수정되었습니다.
  • 2021년 9월 8일

    • [SPARK-35700][SQL][WARMFIX] 외부 시스템에서 작성하고 작성할 때 char/varchar orc 테이블을 읽습니다.
    • [SPARK-36532][CORE][3.1] executorsconnected를 방지하기 위해 CoarseGrainedExecutorBackend.onDisconnected의 교착 상태가 수정되어 실행기 종료 중단이 방지되었습니다.
  • 2021년 8월 25일

    • Snowflake 커넥터가 2.9.0으로 업그레이드되었습니다.
  • 2021년 8월 11일

    • [SPARK-36034][SQL] 푸시다운 필터의 날짜/시간을 parquet으로 다시 지정합니다.
  • 2021년 7월 29일

    • Databricks Snowflake Spark 커넥터를 2.9.0-spark-3.1로 업그레이드
    • [SPARK-36163][BUILD] JDBC 커넥터 공급자에서 올바른 JDBC 속성을 전파하고 connectionProvider 옵션을 추가합니다.
  • 2021년 7월 14일

    • Azure Synapse 커넥터에서 점이 있는 열 이름을 사용할 때 발생하는 문제가 수정되었습니다.
    • Synapse Connector용 database.schema.table 형식이 도입되었습니다.
    • schemaName.tableName 또는 tableName 대신 databaseName.schemaName.tableName 형식을 대상 테이블로 제공하는 지원이 추가되었습니다.
    • 사용자가 Delta 테이블을 사용하여 사용 가능한 이전 버전으로 이동하지 못하게 하는 버그가 수정되었습니다.
  • 2021년 6월 15일

    • 많은 양의 데이터를 쓰고 실행기 손실이 발생할 때 발생할 수 있는 Delta Lake 최적화된 쓰기의 NoSuchElementException 버그가 수정되었습니다.
  • 2021년 5월 26일

    • Python 보안 취약성을 수정하기 위해 보안 패치로 Python을 업데이트했습니다(CVE-2021-3177).
  • 2021년 4월 30일

    • 운영 체제 보안 업데이트.
    • [SPARK-35227][BUILD] SparkSubmit에서 park-packages에 대한 해결 프로그램을 업데이트합니다.
    • [SPARK-34245][CORE] 마스터가 완료 상태를 전송하지 못한 실행기를 제거하는지 확인합니다.
    • 자동 로더가 구조적 스트리밍 진행률 메트릭을 보고할 때 OOM 문제가 수정되었습니다.

Databricks Runtime 8.1(EoS)

Databricks Runtime 8.1(EoS)을 참조하세요.

  • 2021년 9월 22일

    • 운영 체제 보안 업데이트.
  • 2021년 9월 15일

    • java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x와 같은 IOException으로 쿼리 실패를 유발할 수 있는 경합 상태가 수정되었습니다.
  • 2021년 9월 8일

    • [SPARK-35700][SQL][WARMFIX] 외부 시스템에서 작성하고 작성할 때 char/varchar orc 테이블을 읽습니다.
    • [SPARK-36532][CORE][3.1] executorsconnected를 방지하기 위해 CoarseGrainedExecutorBackend.onDisconnected의 교착 상태가 수정되어 실행기 종료 중단이 방지되었습니다.
  • 2021년 8월 25일

    • Snowflake 커넥터가 2.9.0으로 업그레이드되었습니다.
  • 2021년 8월 11일

    • [SPARK-36034][SQL] 푸시다운 필터의 날짜/시간을 parquet으로 다시 지정합니다.
  • 2021년 7월 29일

    • Databricks Snowflake Spark 커넥터를 2.9.0-spark-3.1로 업그레이드
    • [SPARK-36163][BUILD] JDBC 커넥터 공급자에서 올바른 JDBC 속성을 전파하고 connectionProvider 옵션을 추가합니다.
  • 2021년 7월 14일

    • Azure Synapse 커넥터에서 점이 있는 열 이름을 사용할 때 발생하는 문제가 수정되었습니다.
    • 사용자가 Delta 테이블을 사용하여 사용 가능한 이전 버전으로 이동하지 못하게 하는 버그가 수정되었습니다.
  • 2021년 6월 15일

    • 많은 양의 데이터를 쓰고 실행기 손실이 발생할 때 발생할 수 있는 Delta Lake 최적화된 쓰기의 NoSuchElementException 버그가 수정되었습니다.
  • 2021년 5월 26일

    • Python 보안 취약성을 수정하기 위해 보안 패치로 Python을 업데이트했습니다(CVE-2021-3177).
  • 2021년 4월 30일

    • 운영 체제 보안 업데이트.
    • [SPARK-35227][BUILD] SparkSubmit에서 park-packages에 대한 해결 프로그램을 업데이트합니다.
    • 자동 로더가 구조적 스트리밍 진행률 메트릭을 보고할 때 OOM 문제가 수정되었습니다.
  • 2021년 4월 27일

    • [SPARK-34245][CORE] 마스터가 완료 상태를 전송하지 못한 실행기를 제거하는지 확인합니다.
    • [SPARK-34856][SQL] ANSI 모드: 복잡한 형식을 문자열 형식으로 캐스팅을 허용합니다.
    • [SPARK-35014] 폴딩 가능 식을 다시 쓰지 않도록 PhysicalAggregation 패턴이 수정되었습니다.
    • [SPARK-34769][SQL] AnsiTypeCoercion: TypeCollection 중에서 가장 좁은 변환 가능한 형식을 반환합니다.
    • [SPARK-34614][SQL] ANSI 모드: 문자열을 부울로 캐스팅하면 구문 분석 오류에서 예외가 throw됩니다.
    • [SPARK-33794][SQL] ANSI 모드: 다음에서 잘못된 입력을 수신할 때 런타임 IllegalArgumentException을 throw되도록 NextDay 식이 수정되었습니다.

Databricks Runtime 8.0(EoS)

Databricks Runtime 8.0(EoS)을 참조하세요.

  • 2021년 9월 15일

    • java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x와 같은 IOException으로 쿼리 실패를 유발할 수 있는 경합 상태가 수정되었습니다.
  • 2021년 8월 25일

    • Snowflake 커넥터가 2.9.0으로 업그레이드되었습니다.
  • 2021년 8월 11일

    • [SPARK-36034][SQL] 푸시다운 필터의 날짜/시간을 parquet으로 다시 지정합니다.
  • 2021년 7월 29일

    • [SPARK-36163][BUILD] JDBC 커넥터 공급자에서 올바른 JDBC 속성을 전파하고 connectionProvider 옵션을 추가합니다.
  • 2021년 7월 14일

    • Azure Synapse 커넥터에서 점이 있는 열 이름을 사용할 때 발생하는 문제가 수정되었습니다.
    • 사용자가 Delta 테이블을 사용하여 사용 가능한 이전 버전으로 이동하지 못하게 하는 버그가 수정되었습니다.
  • 2021년 5월 26일

    • Python 보안 취약성을 수정하기 위해 보안 패치로 Python을 업데이트했습니다(CVE-2021-3177).
  • 2021년 4월 30일

    • 운영 체제 보안 업데이트.
    • [SPARK-35227][BUILD] SparkSubmit에서 park-packages에 대한 해결 프로그램을 업데이트합니다.
    • [SPARK-34245][CORE] 마스터가 완료 상태를 전송하지 못한 실행기를 제거하는지 확인합니다.
  • 2021년 3월 24일

    • [SPARK-34681][SQL] 같지 않은 조건으로 왼쪽을 빌드할 때 전체 외부 순서 섞기 해시 조인에 대한 버그가 수정되었습니다.
    • [SPARK-34534] FetchShuffleBlocks를 사용하여 블록을 가져올 때 blockIds 순서가 수정되었습니다.
    • [SPARK-34613][SQL] 수정 보기가 사용하지 않도록 설정 힌트 구성을 캡처하지 않습니다.
  • 2021년 3월 9일

    • [SPARK-34543][SQL] v1 SET LOCATION에서 파티션 사양을 확인하는 동안 spark.sql.caseSensitive 구성을 반영합니다.
    • [SPARK-34392][SQL] DateTimeUtils에서 ZoneOffset +h:mm을 지원합니다. getZoneId
    • [UI] Spark DAG Visualization의 href 링크가 수정되었습니다.
    • [SPARK-34436][SQL] DPP에서 LIKE ANY/ALL 식을 지원합니다.

Databricks Runtime 7.6(EoS)

Databricks Runtime 7.6(EoS)을 참조하세요.

  • 2021년 8월 11일
    • [SPARK-36034][SQL] 푸시다운 필터의 날짜/시간을 parquet으로 다시 지정합니다.
  • 2021년 7월 29일
    • [SPARK-32998][BUILD] 기본 원격 리포지토리를 내부 리포지토리로만 재정의하는 기능이 추가되었습니다.
  • 2021년 7월 14일
    • 사용자가 Delta 테이블을 사용하여 사용 가능한 이전 버전으로 이동하지 못하게 하는 버그가 수정되었습니다.
  • 2021년 5월 26일
    • Python 보안 취약성을 수정하기 위해 보안 패치로 Python을 업데이트했습니다(CVE-2021-3177).
  • 2021년 4월 30일
    • 운영 체제 보안 업데이트.
    • [SPARK-35227][BUILD] SparkSubmit에서 park-packages에 대한 해결 프로그램을 업데이트합니다.
    • [SPARK-34245][CORE] 마스터가 완료 상태를 전송하지 못한 실행기를 제거하는지 확인합니다.
  • 2021년 3월 24일
    • [SPARK-34768][SQL] Univocity에서 기본 입력 버퍼 크기를 준수합니다.
    • [SPARK-34534] FetchShuffleBlocks를 사용하여 블록을 가져올 때 blockIds 순서가 수정되었습니다.
  • 2021년 3월 9일
    • (Azure만 해당) Databricks Runtime 7.2에서 만들어진 이전 자동 로더 스트림을 실행하기 위해 Databricks Runtime 7.6을 사용할 때 NullPointerException을 유발할 수 있는 자동 로더 버그가 수정되었습니다.
    • [UI] Spark DAG Visualization의 href 링크가 수정되었습니다.
    • 알 수 없는 리프 노드 SparkPlan이 SizeInBytesOnlyStatsSparkPlanVisitor에서 올바르게 처리되지 않습니다.
    • SHOW DATABASES의 출력 스키마를 복원합니다.
    • [Delta][8.0, 7.6] 파일 크기 자동 튜닝 논리의 계산 버그가 수정되었습니다.
    • 디스크 캐시의 Delta 테이블 파일에 대한 부실 검사 사용 안 함
    • [SQL] 범위 조인 힌트가 있는 경우 올바른 동적 정리 빌드 키를 사용합니다.
    • 비 SQL 코드 경로에서 문자 형식 지원을 사용하지 않습니다.
    • Avoid NPE in DataFrameReader.schema
    • EventGridClient 응답에 엔터티가 없을 때 NPE가 수정되었습니다.
    • Azure Auto Loader에서 닫힌 스트림 읽기 버그가 수정되었습니다.
    • [SQL] AOS를 사용하는 경우 파티션 번호 섞기 조언을 생성하지 마세요.
  • 2021년 2월 24일
    • Spark BigQuery 커넥터를 v0.18로 업그레이드하여 화살표 및 Avro 반복기에 대한 다양한 버그 수정 및 지원이 도입되었습니다.
    • Parquet 파일의 소수 자릿수와 스케일이 Spark 스키마와 다른 경우 Spark가 잘못된 결과를 반환하는 정확성 문제가 수정되었습니다.
    • Spark SQL에 대한 지오메트리 및 지리 JDBC 형식 지원을 추가하여 공간 데이터 형식이 포함된 Microsoft SQL Server 테이블의 읽기 실패 문제가 수정되었습니다.
    • 새 구성 spark.databricks.hive.metastore.init.reloadFunctions.enabled를 도입했습니다. 이 구성은 기본 제공 Hive 초기화를 제어합니다. true로 설정하면 Azure Databricks는 사용자가 보유한 모든 데이터베이스의 모든 함수를 FunctionRegistry에 다시 로드합니다. 이는 Hive Metastore의 기본 동작입니다. false로 설정하면 Azure Databricks는 최적화를 위해 이 프로세스를 사용하지 않도록 설정합니다.
    • [SPARK-34212] Parquet 파일에서 10진수 데이터 읽기와 관련된 문제가 수정되었습니다.
    • [SPARK-34260][SQL] 임시 보기를 두 번 만들 때 UnresolvedException이 수정되었습니다.

Databricks Runtime 7.5(EoS)

Databricks Runtime 7.5(EoS)을 참조하세요.

  • 2021년 5월 26일
    • Python 보안 취약성을 수정하기 위해 보안 패치로 Python을 업데이트했습니다(CVE-2021-3177).
  • 2021년 4월 30일
    • 운영 체제 보안 업데이트.
    • [SPARK-35227][BUILD] SparkSubmit에서 park-packages에 대한 해결 프로그램을 업데이트합니다.
    • [SPARK-34245][CORE] 마스터가 완료 상태를 전송하지 못한 실행기를 제거하는지 확인합니다.
  • 2021년 3월 24일
    • [SPARK-34768][SQL] Univocity에서 기본 입력 버퍼 크기를 준수합니다.
    • [SPARK-34534] FetchShuffleBlocks를 사용하여 블록을 가져올 때 blockIds 순서가 수정되었습니다.
  • 2021년 3월 9일
    • (Azure만 해당) Databricks Runtime 7.2에서 만들어진 이전 자동 로더 스트림을 실행하기 위해 Databricks Runtime 7.5를 사용할 때 NullPointerException을 유발할 수 있는 자동 로더 버그가 수정되었습니다.
    • [UI] Spark DAG Visualization의 href 링크가 수정되었습니다.
    • 알 수 없는 리프 노드 SparkPlan이 SizeInBytesOnlyStatsSparkPlanVisitor에서 올바르게 처리되지 않습니다.
    • SHOW DATABASES의 출력 스키마를 복원합니다.
    • 디스크 캐시의 Delta 테이블 파일에 대한 부실 검사 사용 안 함
    • [SQL] 범위 조인 힌트가 있는 경우 올바른 동적 정리 빌드 키를 사용합니다.
    • 비 SQL 코드 경로에서 문자 형식 지원을 사용하지 않습니다.
    • Avoid NPE in DataFrameReader.schema
    • EventGridClient 응답에 엔터티가 없을 때 NPE가 수정되었습니다.
    • Azure Auto Loader에서 닫힌 스트림 읽기 버그가 수정되었습니다.
  • 2021년 2월 24일
    • Spark BigQuery 커넥터를 v0.18로 업그레이드하여 화살표 및 Avro 반복기에 대한 다양한 버그 수정 및 지원이 도입되었습니다.
    • Parquet 파일의 소수 자릿수와 스케일이 Spark 스키마와 다른 경우 Spark가 잘못된 결과를 반환하는 정확성 문제가 수정되었습니다.
    • Spark SQL에 대한 지오메트리 및 지리 JDBC 형식 지원을 추가하여 공간 데이터 형식이 포함된 Microsoft SQL Server 테이블의 읽기 실패 문제가 수정되었습니다.
    • 새 구성 spark.databricks.hive.metastore.init.reloadFunctions.enabled를 도입했습니다. 이 구성은 기본 제공 Hive 초기화를 제어합니다. true로 설정하면 Azure Databricks는 사용자가 보유한 모든 데이터베이스의 모든 함수를 FunctionRegistry에 다시 로드합니다. 이는 Hive Metastore의 기본 동작입니다. false로 설정하면 Azure Databricks는 최적화를 위해 이 프로세스를 사용하지 않도록 설정합니다.
    • [SPARK-34212] Parquet 파일에서 10진수 데이터 읽기와 관련된 문제가 수정되었습니다.
    • [SPARK-34260][SQL] 임시 보기를 두 번 만들 때 UnresolvedException이 수정되었습니다.
  • 2021년 2월 4일
    • SELECT * FROM table LIMIT nrows와 같은 전역 제한을 설정하는 쿼리의 증분 실행을 방지하는 회귀가 수정되었습니다. 화살표 serialization을 사용하도록 설정된 ODBC/JDBC를 통해 쿼리를 실행하는 사용자에게 회귀가 발생했습니다.
    • Delta 테이블용 Hive 메타스토어의 메타데이터 손상을 방지하기 위해 Hive 클라이언트에 쓰기 시간 검사가 도입되었습니다.
    • 클러스터 환경 변수 구성에 잘못된 bash 구문이 포함된 경우 DBFS FUSE가 시작되지 않는 회귀가 수정되었습니다.
  • 2021년 1월 20일
    • 잘못된 AnalysisException을 발생시키고 열이 자체 조인에서 모호하다고 말할 수 있는 2021년 1월 12일 유지 관리 릴리스의 회귀가 수정되었습니다. 이 회귀는 사용자가 다음 조건에서 파생된 DataFrame(소위 자체 조인)과 DataFrame을 조인할 때 발생합니다.
      • 이 두 DataFrame에는 공통 열이 있지만 자체 조인의 출력에는 공통 열이 없습니다. 예를 들어 df.join(df.select($"col" as "new_col"), cond)
      • 파생된 DataFrame은 select, groupBy 또는 window를 통해 일부 열을 제외합니다.
      • 조인 조건 또는 조인된 Dataframe 이후의 다음 변환은 비공통 열을 참조하세요. 예를 들어 df.join(df.drop("a"), df("a") === 1)
  • 2021년 1월 12일
    • Azure Storage SDK가 2.3.8에서 2.3.9로 업그레이드되었습니다.
    • [SPARK-33593][SQL] 벡터 판독기에 이진 파일 파티션 값이 있는 잘못된 데이터가 있습니다.
    • [SPARK-33480][SQL] char/varchar 테이블 삽입 길이 확인 오류 메시지가 업데이트되었습니다.

Databricks Runtime 7.3 LTS(EoS)

Databricks Runtime 7.3 LTS(EoS)을 참조하세요.

  • 2023년 9월 10일

    • 기타 버그가 수정되었습니다.
  • 2023년 8월 30일

    • 운영 체제 보안 업데이트.
  • 2023년 8월 15일

    • 운영 체제 보안 업데이트.
  • 2023년 6월 23일

    • Snowflake-jdbc 라이브러리는 보안 문제를 해결하기 위해 3.13.29로 업그레이드됩니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 15일

    • [SPARK-43413][SQL] IN 하위 쿼리 ListQuery null 허용 여부를 수정합니다.
    • 운영 체제 보안 업데이트.
  • 2023년 6월 2일

    • 제공된 스키마에 유추 파티션이 포함되지 않은 경우 다른 원본 파일 형식이 일치하지 않는 자동 로더의 문제가 해결되었습니다. 이 문제로 인해 유추된 파티션 스키마에 열이 없는 파일을 읽을 때 예기치 않은 오류가 발생할 수 있습니다.
  • 2023년 5월 17일

    • 운영 체제 보안 업데이트.
  • 2023년 4월 25일

    • 운영 체제 보안 업데이트.
  • 2023년 4월 11일

    • [SPARK-42967][CORE] 스테이지가 취소된 후 작업이 시작될 때 SparkListenerTaskStart.stageAttemptId를 수정합니다.
    • 기타 버그가 수정되었습니다.
  • 2023년 3월 29일

    • 운영 체제 보안 업데이트.
  • 2023년 3월 14일

    • 기타 버그가 수정되었습니다.
  • 2023년 2월 28일

    • 운영 체제 보안 업데이트.
  • 2023년 2월 16일

    • 운영 체제 보안 업데이트.
  • 2023년 1월 31일

    • JDBC 테이블의 테이블 형식은 이제 기본적으로 EXTERNAL입니다.
  • 2023년 1월 18일

    • 운영 체제 보안 업데이트.
  • 2022년 11월 29일

    • 기타 버그가 수정되었습니다.
  • 2022년 11월 15일

    • Apache commons-text를 1.10.0으로 업그레이드했습니다.
    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 11월 1일

    • [SPARK-38542] [SQL]UnsafeHashedRelation은 numKeys를 serialize해야 함
  • 2022년 10월 18일

    • 운영 체제 보안 업데이트.
  • 2022년 10월 5일 수요일

    • 기타 버그가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 9월 22일

    • [SPARK-40089][SQL] 일부 10진수 형식에 대한 정렬 수정
  • 2022년 9월 6일 화요일

    • [SPARK-35542][CORE][ML] 수정: 매개 변수 splitsArray, inputCols 및 outputCols가 있는 여러 열에 대해 만들어진 버킷타이저를 저장 후 로드할 수 없음
    • [SPARK-40079][CORE] 빈 입력 사례에 대한 Imputer inputCols 유효성 검사 추가
  • 2022년 8월 24일

    • [SPARK-39962][PYTHON][SQL] 그룹 특성이 비어 있는 경우 프로젝션 적용
    • 운영 체제 보안 업데이트.
  • 2022년 8월 9일 화요일

    • 운영 체제 보안 업데이트.
  • 2022년 7월 27일

    • 원본이 비결정적일 때 Delta MERGE 작업 결과를 일관되게 만듭니다.
    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 7월 13일

    • [SPARK-32680][SQL] 해결되지 않은 쿼리를 사용하여 V2 CTAS를 전처리하지 않음
    • Azure에서 디렉터리 목록에 대해 자동 로더가 기본 클라우드 API를 사용하지 않도록 설정했습니다.
    • 운영 체제 보안 업데이트.
  • 2022년 7월 5일

    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 6월 2일

    • [SPARK-38918][SQL] 중첩 열 정리는 현재 관계에 속하지 않는 특성을 필터링함
    • 운영 체제 보안 업데이트.
  • 2022년 5월 18일

    • AWS SDK 버전을 1.11.655에서 1.11.678로 업그레이드합니다.
    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 4월 19일

    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 4월 6일

    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 3월 14일 월요일

    • log4j 1.2.17 jar에서 취약한 클래스가 제거되었습니다.
    • 기타 버그가 수정되었습니다.
  • 2022년 2월 23일

    • [SPARK-37859][SQL] 스키마 비교 중 메타데이터를 확인하지 않음
  • 2022년 2월 8일

    • Ubuntu JDK를 1.8.0.312로 업그레이드합니다.
    • 운영 체제 보안 업데이트.
  • 2022년 2월 1일

    • 운영 체제 보안 업데이트.
  • 2022년 1월 26일

    • ANSI SQL 언어가 사용하도록 설정된 경우 OPTIMIZE 명령이 실패할 수 있는 버그가 수정되었습니다.
  • 2022년 1월 19일

    • Conda 기본 채널이 7.3ML LTS에서 제거되었습니다.
    • 운영 체제 보안 업데이트.
  • 2021년 12월 7일

    • 운영 체제 보안 업데이트.
  • 2021년 11월 4일

    • ArrayIndexOutOfBoundsException으로 인해 구조적 스트리밍 스트림이 실패할 수 있는 버그가 수정되었습니다.
    • java.io.IOException: No FileSystem for scheme과 같은 IOException으로 쿼리 실패를 일으키거나 sparkContext.hadoopConfiguration에 대한 수정 사항이 쿼리에 적용되지 않을 수 있는 경합 상태가 수정되었습니다.
  • 2021년 9월 15일

    • java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x와 같은 IOException으로 쿼리 실패를 유발할 수 있는 경합 상태가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2021년 9월 8일

    • [SPARK-35700][SQL][WARMFIX] 외부 시스템에서 작성하고 작성할 때 char/varchar orc 테이블을 읽습니다.
    • [SPARK-36532][CORE][3.1] executorsconnected를 방지하기 위해 CoarseGrainedExecutorBackend.onDisconnected의 교착 상태가 수정되어 실행기 종료 중단이 방지되었습니다.
  • 2021년 8월 25일

    • Snowflake 커넥터가 2.9.0으로 업그레이드되었습니다.
  • 2021년 7월 29일

    • [SPARK-36034][BUILD] 푸시다운 필터의 날짜/시간을 Parquet으로 다시 지정합니다.
    • [SPARK-34508][BUILD] 네트워크가 다운된 경우 HiveExternalCatalogVersionsSuite를 건너뜁니다.
  • 2021년 7월 14일

    • Azure Synapse 커넥터용 database.schema.table 형식이 도입되었습니다.
    • schemaName.tableName 또는 tableName 대신 databaseName.schemaName.tableName 형식을 대상 테이블로 제공하는 지원이 추가되었습니다.
    • 사용자가 Delta 테이블을 사용하여 사용 가능한 이전 버전으로 이동하지 못하게 하는 버그가 수정되었습니다.
  • 2021년 6월 15일

    • 많은 양의 데이터를 쓰고 실행기 손실이 발생할 때 발생할 수 있는 Delta Lake 최적화된 쓰기의 NoSuchElementException 버그가 수정되었습니다.
    • Python 보안 취약성을 수정하기 위해 보안 패치로 Python을 업데이트했습니다(CVE-2021-3177).
  • 2021년 4월 30일

    • 운영 체제 보안 업데이트.
    • [SPARK-35227][BUILD] SparkSubmit에서 park-packages에 대한 해결 프로그램을 업데이트합니다.
    • [SPARK-34245][CORE] 마스터가 완료 상태를 전송하지 못한 실행기를 제거하는지 확인합니다.
    • [SPARK-35045][SQL] univocity에서 입력 버퍼를 제어하는 내부 옵션이 추가되었습니다.
  • 2021년 3월 24일

    • [SPARK-34768][SQL] Univocity에서 기본 입력 버퍼 크기를 준수합니다.
    • [SPARK-34534] FetchShuffleBlocks를 사용하여 블록을 가져올 때 blockIds 순서가 수정되었습니다.
    • [SPARK-33118][SQL]CREATE TEMPORARY TABLE이 위치와 함께 실패합니다.
  • 2021년 3월 9일

    • Azure Data Lake Storage Gen2용 업데이트된 Azure Blob File System 드라이버는 이제 기본적으로 사용하도록 설정됩니다. 이는 여러 가지 안정성 향상을 제공합니다.
    • databricks-connect get-jar-dir에 대한 Windows의 경로 구분 기호가 수정되었습니다.
    • [UI] Spark DAG Visualization의 href 링크가 수정되었습니다.
    • [DBCONNECT] Databricks Connect 7.3에서 FlatMapCoGroupsInPandas에 대한 지원이 추가되었습니다.
    • SHOW DATABASES의 출력 스키마를 복원합니다.
    • [SQL] 범위 조인 힌트가 있는 경우 올바른 동적 정리 빌드 키를 사용합니다.
    • 디스크 캐시의 Delta 테이블 파일에 대한 부실 검사 사용 안 함
    • [SQL] AOS가 사용하도록 설정되면 파티션 번호 섞기 조언을 생성하지 마세요.
  • 2021년 2월 24일

    • Spark BigQuery 커넥터를 v0.18로 업그레이드하여 화살표 및 Avro 반복기에 대한 다양한 버그 수정 및 지원이 도입되었습니다.
    • Parquet 파일의 소수 자릿수와 스케일이 Spark 스키마와 다른 경우 Spark가 잘못된 결과를 반환하는 정확성 문제가 수정되었습니다.
    • Spark SQL에 대한 지오메트리 및 지리 JDBC 형식 지원을 추가하여 공간 데이터 형식이 포함된 Microsoft SQL Server 테이블의 읽기 실패 문제가 수정되었습니다.
    • 새 구성 spark.databricks.hive.metastore.init.reloadFunctions.enabled를 도입했습니다. 이 구성은 기본 제공 Hive 초기화를 제어합니다. true로 설정하면 Azure Databricks는 사용자가 보유한 모든 데이터베이스의 모든 함수를 FunctionRegistry에 다시 로드합니다. 이는 Hive Metastore의 기본 동작입니다. false로 설정하면 Azure Databricks는 최적화를 위해 이 프로세스를 사용하지 않도록 설정합니다.
    • [SPARK-34212] Parquet 파일에서 10진수 데이터 읽기와 관련된 문제가 수정되었습니다.
    • [SPARK-33579][UI] 프록시 뒤의 실행기 빈 페이지가 수정되었습니다.
    • [SPARK-20044][UI] 경로 접두사를 사용하여 프런트 엔드 역방향 프록시 뒤에서 Spark UI가 지원됩니다.
    • [SPARK-33277][PYSPARK][SQL] ContextAwareIterator를 사용하여 작업 종료 후 사용을 중지합니다.
  • 2021년 2월 4일

    • SELECT * FROM table LIMIT nrows와 같은 전역 제한을 설정하는 쿼리의 증분 실행을 방지하는 회귀가 수정되었습니다. 화살표 serialization을 사용하도록 설정된 ODBC/JDBC를 통해 쿼리를 실행하는 사용자에게 회귀가 발생했습니다.
    • 클러스터 환경 변수 구성에 잘못된 bash 구문이 포함된 경우 DBFS FUSE가 시작되지 않는 회귀가 수정되었습니다.
  • 2021년 1월 20일

    • 잘못된 AnalysisException을 발생시키고 열이 자체 조인에서 모호하다고 말할 수 있는 2021년 1월 12일 유지 관리 릴리스의 회귀가 수정되었습니다. 이 회귀는 사용자가 다음 조건에서 파생된 DataFrame(소위 자체 조인)과 DataFrame을 조인할 때 발생합니다.
      • 이 두 DataFrame에는 공통 열이 있지만 자체 조인의 출력에는 공통 열이 없습니다. 예를 들어 df.join(df.select($"col" as "new_col"), cond)
      • 파생된 DataFrame은 select, groupBy 또는 window를 통해 일부 열을 제외합니다.
      • 조인 조건 또는 조인된 Dataframe 이후의 다음 변환은 비공통 열을 참조하세요. 예를 들어 df.join(df.drop("a"), df("a") === 1)
  • 2021년 1월 12일

    • 운영 체제 보안 업데이트.
    • [SPARK-33593][SQL] 벡터 판독기에 이진 파일 파티션 값이 있는 잘못된 데이터가 있습니다.
    • [SPARK-33677][SQL] 패턴에 escapeChar가 포함된 경우 LikeSimplification 규칙을 건너뜁니다.
    • [SPARK-33592][ML][PYTHON] estimatorParamMaps의 Pyspark ML 유효성 검사기 매개 변수가 저장 및 다시 로드 후 손실될 수 있습니다.
    • [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoin을 중단하지 않도록 join()에서 LogicalPlan의 dataset_id를 변경하지 않도록 합니다.
  • 2020년 12월 8일

    • [SPARK-33587][CORE] 중첩된 치명적 오류에서 실행기를 종료합니다.
    • [SPARK-27421][SQL] 파티션 열을 제거할 때 int 열 및 값 클래스 java.lang.String에 대한 필터를 수정합니다.
    • [SPARK-33316][SQL] Avro 쓰기에서 nullable이 아닌 카탈리스트 스키마에 대해 사용자 제공 null 허용 Avro 스키마가 지원됩니다.
    • Databricks 커넥터를 사용하여 시작된 Spark 작업은 실행기 스택 추적에서 Executor$TaskRunner.$anonfun$copySessionState와 함께 무기한 중단될 수 있습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 12월 1일

    • [SPARK-33404][SQL][3.0] date_trunc 식의 잘못된 결과가 수정되었습니다.
    • [SPARK-33339][PYTHON] 예외가 아닌 오류로 인해 Pyspark 애플리케이션이 중단되었습니다.
    • [SPARK-33183][SQL][HOTFIX] 최적화 프로그램 규칙 제거를 수정하고 중복 정렬을 제거하는 물리적 규칙을 추가합니다.
    • [SPARK-33371][PYTHON][3.0] Python 3.9용 setup.py 및 테스트를 업데이트합니다.
    • [SPARK-33391][SQL] CreateArray를 사용하는 element_at에 하나의 기반 인덱스가 적용되지 않습니다.
    • [SPARK-33306][SQL]날짜를 문자열로 변환할 때 시간대가 필요합니다.
    • [SPARK-33260][SQL] sortOrder가 Stream인 경우 SortExec의 잘못된 결과가 수정되었습니다.
  • 2020년 11월 5일

    • UserGroupInformation.getCurrentUser()에 대한 ABFS 및 WASB 잠금이 수정되었습니다.
    • Avro 판독기가 MAGIC 바이트를 읽을 때 무한 루프 버그가 수정되었습니다.
    • USAGE 권한에 대한 지원이 추가되었습니다.
    • 테이블 액세스 제어의 권한 검사에 대한 성능이 개선되었습니다.
  • 2020년 10월 13일

    • 운영 체제 보안 업데이트.
    • 높은 동시성 자격 증명 통과가 사용하도록 설정된 클러스터에 있을 때 /dbfs/에서 FUSE 탑재를 사용하여 DBFS에서 읽고 쓸 수 있습니다. 일반 탑재는 지원되지만 통과 자격 증명이 필요한 탑재는 아직 지원되지 않습니다.
    • [SPARK-32999][SQL] Utils.getSimpleName을 사용하여 TreeNode에서 형식이 잘못된 클래스 이름을 사용하지 않도록 합니다.
    • [SPARK-32585][SQL] ScalaReflection에서 스칼라 열거가 지원됩니다.
    • 잘못된 XML 문자가 있는 파일 이름이 포함된 FUSE 탑재의 목록 디렉터리가 수정되었습니다.
    • FUSE 탑재가 더 이상 ListMultipartUploads를 사용하지 않습니다.
  • 2020년 9월 29일

    • [SPARK-32718][SQL] 간격 단위에 대해 불필요한 키워드가 제거되었습니다.
    • [SPARK-32635][SQL] 폴딩 가능 전파가 수정되었습니다.
    • 새 구성 spark.shuffle.io.decoder.consolidateThreshold를 추가합니다. config 값을 Long.MAX_VALUE로 설정하여 netty FrameBuffers의 통합을 건너뛰고 코너 케이스에서 java.lang.IndexOutOfBoundsException을 방지합니다.
  • 2023년 4월 25일

    • 운영 체제 보안 업데이트.
  • 2023년 4월 11일

    • 기타 버그가 수정되었습니다.
  • 2023년 3월 29일

    • 기타 버그가 수정되었습니다.
  • 2023년 3월 14일

    • 운영 체제 보안 업데이트.
  • 2023년 2월 28일

    • 운영 체제 보안 업데이트.
  • 2023년 2월 16일

    • 운영 체제 보안 업데이트.
  • 2023년 1월 31일

    • 기타 버그가 수정되었습니다.
  • 2023년 1월 18일

    • 운영 체제 보안 업데이트.
  • 2022년 11월 29일

    • 운영 체제 보안 업데이트.
  • 2022년 11월 15일

    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 11월 1일

    • 운영 체제 보안 업데이트.
  • 2022년 10월 18일

    • 운영 체제 보안 업데이트.
    • 2022년 10월 5일
      • 운영 체제 보안 업데이트.
    • 2022년 8월 24일
      • 운영 체제 보안 업데이트.
    • 2022년 8월 9일
      • 운영 체제 보안 업데이트.
    • 2022년 7월 27일
      • 운영 체제 보안 업데이트.
    • 2022년 7월 5일
      • 운영 체제 보안 업데이트.
    • 2022년 6월 2일
      • 운영 체제 보안 업데이트.
    • 2022년 5월 18일
      • 운영 체제 보안 업데이트.
    • 2022년 4월 19일
      • 운영 체제 보안 업데이트.
      • 기타 버그가 수정되었습니다.
    • 2022년 4월 6일
      • 운영 체제 보안 업데이트.
      • 기타 버그가 수정되었습니다.
    • 2022년 3월 14일
      • 기타 버그가 수정되었습니다.
    • 2022년 2월 23일
      • 기타 버그가 수정되었습니다.
    • 2022년 2월 8일
      • Ubuntu JDK를 1.8.0.312로 업그레이드합니다.
      • 운영 체제 보안 업데이트.
    • 2022년 2월 1일
      • 운영 체제 보안 업데이트.
    • 2022년 1월 19일
      • 운영 체제 보안 업데이트.
    • 2021년 9월 22일
      • 운영 체제 보안 업데이트.
    • 2021년 4월 30일
      • 운영 체제 보안 업데이트.
      • [SPARK-35227][BUILD] SparkSubmit에서 park-packages에 대한 해결 프로그램을 업데이트합니다.
    • 2021년 1월 12일
      • 운영 체제 보안 업데이트.
    • 2020년 12월 8일
      • [SPARK-27421][SQL] 파티션 열을 제거할 때 int 열 및 값 클래스 java.lang.String에 대한 필터를 수정합니다.
      • 운영 체제 보안 업데이트.
    • 2020년 12월 1일
    • [SPARK-33260][SQL] sortOrder가 Stream인 경우 SortExec의 잘못된 결과가 수정되었습니다.
    • 2020년 11월 3일
      • Java 버전을 1.8.0_252에서 1.8.0_265로 업그레이드했습니다.
      • UserGroupInformation.getCurrentUser()와 관련된 ABFS 및 WASB 잠금이 수정되었습니다.
    • 2020년 10월 13일
      • 운영 체제 보안 업데이트.

Databricks Runtime 6.4 추가 지원(EoS)

Databricks Runtime 6.4(EoS)Databricks Runtime 6.4 추가 지원(EoS)을 참조하세요.

  • 2022년 7월 5일

    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 6월 2일

    • 운영 체제 보안 업데이트.
  • 2022년 5월 18일

    • 운영 체제 보안 업데이트.
  • 2022년 4월 19일

    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 4월 6일

    • 운영 체제 보안 업데이트.
    • 기타 버그가 수정되었습니다.
  • 2022년 3월 14일 월요일

    • log4j 1.2.17 jar에서 취약한 클래스가 제거되었습니다.
    • 기타 버그가 수정되었습니다.
  • 2022년 2월 23일

    • 기타 버그가 수정되었습니다.
  • 2022년 2월 8일

    • Ubuntu JDK를 1.8.0.312로 업그레이드합니다.
    • 운영 체제 보안 업데이트.
  • 2022년 2월 1일

    • 운영 체제 보안 업데이트.
  • 2022년 1월 26일

    • ANSI SQL 언어가 사용하도록 설정된 경우 OPTIMIZE 명령이 실패할 수 있는 버그가 수정되었습니다.
  • 2022년 1월 19일

    • 운영 체제 보안 업데이트.
  • 2021년 12월 8일

    • 운영 체제 보안 업데이트.
  • 2021년 9월 22일

    • 운영 체제 보안 업데이트.
  • 2021년 6월 15일

    • [SPARK-35576][SQL] Set 명령의 결과에서 중요한 정보가 수정되었습니다.
  • 2021년 6월 7일

    • 선택적 추가 원격 maven 미러의 쉼표로 구분된 문자열 구성인 spark.sql.maven.additionalRemoteRepositories라는 새 구성을 추가합니다. 기본값은 https://maven-central.storage-download.googleapis.com/maven2/입니다.
  • 2021년 4월 30일

    • 운영 체제 보안 업데이트.
    • [SPARK-35227][BUILD] SparkSubmit에서 park-packages에 대한 해결 프로그램을 업데이트합니다.
  • 2021년 3월 9일

    • Azure Blob File System 드라이버에 HADOOP-17215를 포트합니다(조건부 덮어쓰기 지원).
    • databricks-connect get-jar-dir에 대한 Windows의 경로 구분 기호가 수정되었습니다.
    • Hive 메타스토어 버전 2.3.5, 2.3.6 및 2.3.7에 대한 지원이 추가되었습니다.
    • 스필 후 "totalResultsCollected" 화살표가 잘못 보고되었습니다.
  • 2021년 2월 24일

    • 새 구성 spark.databricks.hive.metastore.init.reloadFunctions.enabled를 도입했습니다. 이 구성은 기본 제공 Hive 초기화를 제어합니다. true로 설정하면 Azure Databricks는 사용자가 보유한 모든 데이터베이스의 모든 함수를 FunctionRegistry에 다시 로드합니다. 이는 Hive Metastore의 기본 동작입니다. false로 설정하면 Azure Databricks는 최적화를 위해 이 프로세스를 사용하지 않도록 설정합니다.
  • 2021년 2월 4일

    • SELECT * FROM table LIMIT nrows와 같은 전역 제한을 설정하는 쿼리의 증분 실행을 방지하는 회귀가 수정되었습니다. 화살표 serialization을 사용하도록 설정된 ODBC/JDBC를 통해 쿼리를 실행하는 사용자에게 회귀가 발생했습니다.
    • 클러스터 환경 변수 구성에 잘못된 bash 구문이 포함된 경우 DBFS FUSE가 시작되지 않는 회귀가 수정되었습니다.
  • 2021년 1월 12일

    • 운영 체제 보안 업데이트.
  • 2020년 12월 8일

    • [SPARK-27421][SQL] 파티션 열을 제거할 때 int 열 및 값 클래스 java.lang.String에 대한 필터를 수정합니다.
    • [SPARK-33183][SQL] Optimizer 규칙 EliminateSorts 수정 및 중복 정렬 제거를 위한 물리적 규칙이 추가되었습니다.
    • [런타임 6.4 ML GPU] Microsoft는 이전에 NCCL의 잘못된 버전(2.7.8-1+cuda11.1)을 설치했습니다. 이 릴리스는 CUDA 10.0과 호환되는 2.4.8-1+cuda10.0으로 수정합니다.
    • 운영 체제 보안 업데이트.
  • 2020년 12월 1일

    • [SPARK-33260][SQL] sortOrder가 Stream인 경우 SortExec의 잘못된 결과가 수정되었습니다.
    • [SPARK-32635][SQL] 폴딩 가능 전파가 수정되었습니다.
  • 2020년 11월 3일

    • Java 버전을 1.8.0_252에서 1.8.0_265로 업그레이드했습니다.
    • UserGroupInformation.getCurrentUser()와 관련된 ABFS 및 WASB 잠금이 수정되었습니다.
    • MAGIC 바이트를 읽을 때 Avro 판독기의 무한 루프 버그가 수정되었습니다.
  • 2020년 10월 13일

    • 운영 체제 보안 업데이트.
    • [SPARK-32999][SQL][2.4] Utils.getSimpleName을 사용하여 TreeNode에서 형식이 잘못된 클래스 이름을 사용하지 않도록 합니다.
    • 잘못된 XML 문자가 있는 파일 이름이 포함된 FUSE 탑재의 목록 디렉터리가 수정되었습니다.
    • FUSE 탑재가 더 이상 ListMultipartUploads를 사용하지 않습니다.
  • 2020년 9월 24일

    • 표준 클러스터의 패스스루가 여전히 파일 시스템 구현 사용자 사용을 제한하는 이전 제한을 수정했습니다. 이제 사용자는 제한 없이 로컬 파일 시스템에 액세스할 수 있습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 9월 8일

    • Azure Synapse Analytics, maxbinlength에 대한 새 매개 변수가 만들어졌습니다. 이 매개 변수는 BinaryType 열의 열 길이를 제어하는 데 사용되며 VARBINARY(maxbinlength)로 변환됩니다. .option("maxbinlength", n)를 사용하여 설정할 수 있습니다. 여기서 0 < n <= 8000입니다.
    • Azure Storage SDK를 8.6.4로 업데이트하고 WASB 드라이버에서 만든 연결에서 TCP를 계속 사용할 수 있도록 합니다.
  • 2020년 8월 25일

    • 자체 병합에서 모호한 특성 해결이 수정되었습니다.
  • 2020년 8월 18일

    • [SPARK-32431][SQL] 내장 데이터 원본에서 읽을 때 중복된 중첩 열을 확인합니다.
    • Trigger.Once를 사용할 때 AQS 커넥터의 경합 상태가 수정되었습니다.
  • 2020년 8월 11일

    • [SPARK-28676][CORE] ContextCleaner에서 과도한 로깅을 방지합니다.
  • 2020년 8월 3일

    • 이제 통과 지원 클러스터에서 LDA 변환 함수를 사용할 수 있습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 7월 7일

    • Java 버전을 1.8.0_232에서 1.8.0_252로 업그레이드했습니다.
  • 2020년 4월 21일

    • [SPARK-31312][SQL] HiveFunctionWrapper의 UDF 인스턴스에 대한 캐시 클래스 인스턴스
  • 2020년 4월 7일

    • PyArrow 0.15.0 이상에서 작동하지 않는 pandas udf 문제를 해결하기 위해 환경 변수(ARROW_PRE_0_15_IPC_FORMAT=1)를 추가하여 해당 버전의 PyArrow를 지원합니다. [SPARK-29367]의 지침을 참조하세요.
  • 2020년 3월 10월

    • 최적화된 자동 크기 조정은 이제 보안 계획의 대화형 클러스터에서 기본적으로 사용됩니다.
    • Databricks Runtime에 포함된 Snowflake 커넥터(spark-snowflake_2.11)가 버전 2.5.9로 업데이트되었습니다. snowflake-jdbc가 버전 3.12.0으로 업데이트되었습니다.

Databricks Runtime 5.5 LTS(EoS)

Databricks Runtime 5.5 LTS(EoS)Databricks Runtime 5.5 추가 지원(EoS)을 참조하세요.

  • 2021년 12월 8일

    • 운영 체제 보안 업데이트.
  • 2021년 9월 22일

    • 운영 체제 보안 업데이트.
  • 2021년 8월 25일

    • 5.5ML LTS(현재 사용되지 않음)와 더 나은 패리티를 유지하기 위해 5.5ML 확장 지원 릴리스에서 이전에 업그레이드된 일부 python 패키지를 다운그레이드했습니다. 두 버전 간의 업데이트된 차이점은 [_]/release-notes/runtime/5.5xml.md)를 참조하세요.
  • 2021년 6월 15일

    • [SPARK-35576][SQL] Set 명령의 결과에서 중요한 정보가 수정되었습니다.
  • 2021년 6월 7일

    • 선택적 추가 원격 maven 미러의 쉼표로 구분된 문자열 구성인 spark.sql.maven.additionalRemoteRepositories라는 새 구성을 추가합니다. 기본값은 https://maven-central.storage-download.googleapis.com/maven2/입니다.
  • 2021년 4월 30일

    • 운영 체제 보안 업데이트.
    • [SPARK-35227][BUILD] SparkSubmit에서 park-packages에 대한 해결 프로그램을 업데이트합니다.
  • 2021년 3월 9일

    • Azure Blob File System 드라이버에 HADOOP-17215를 포트합니다(조건부 덮어쓰기 지원).
  • 2021년 2월 24일

    • 새 구성 spark.databricks.hive.metastore.init.reloadFunctions.enabled를 도입했습니다. 이 구성은 기본 제공 Hive 초기화를 제어합니다. true로 설정하면 Azure Databricks는 사용자가 보유한 모든 데이터베이스의 모든 함수를 FunctionRegistry에 다시 로드합니다. 이는 Hive Metastore의 기본 동작입니다. false로 설정하면 Azure Databricks는 최적화를 위해 이 프로세스를 사용하지 않도록 설정합니다.
  • 2021년 1월 12일

    • 운영 체제 보안 업데이트.
    • [HADOOP-17130]에 대한 수정 사항입니다.
  • 2020년 12월 8일

    • [SPARK-27421][SQL] 파티션 열을 제거할 때 int 열 및 값 클래스 java.lang.String에 대한 필터를 수정합니다.
    • 운영 체제 보안 업데이트.
  • 2020년 12월 1일

    • [SPARK-33260][SQL] sortOrder가 Stream인 경우 SortExec의 잘못된 결과가 수정되었습니다.
    • [SPARK-32635][SQL] 폴딩 가능 전파가 수정되었습니다.
  • 2020년 10월 29일

    • Java 버전을 1.8.0_252에서 1.8.0_265로 업그레이드했습니다.
    • UserGroupInformation.getCurrentUser()와 관련된 ABFS 및 WASB 잠금이 수정되었습니다.
    • MAGIC 바이트를 읽을 때 Avro 판독기의 무한 루프 버그가 수정되었습니다.
  • 2020년 10월 13일

    • 운영 체제 보안 업데이트.
    • [SPARK-32999][SQL][2.4] Utils.getSimpleName을 사용하여 TreeNode에서 형식이 잘못된 클래스 이름을 사용하지 않도록 합니다.
  • 2020년 9월 24일

    • 운영 체제 보안 업데이트.
  • 2020년 9월 8일

    • Azure Synapse Analytics, maxbinlength에 대한 새 매개 변수가 만들어졌습니다. 이 매개 변수는 BinaryType 열의 열 길이를 제어하는 데 사용되며 VARBINARY(maxbinlength)로 변환됩니다. .option("maxbinlength", n)를 사용하여 설정할 수 있습니다. 여기서 0 < n <= 8000입니다.
  • 2020년 8월 18일

    • [SPARK-32431][SQL] 내장 데이터 원본에서 읽을 때 중복된 중첩 열을 확인합니다.
    • Trigger.Once를 사용할 때 AQS 커넥터의 경합 상태가 수정되었습니다.
  • 2020년 8월 11일

    • [SPARK-28676][CORE] ContextCleaner에서 과도한 로깅을 방지합니다.
  • 2020년 8월 3일

    • 운영 체제 보안 업데이트
  • 2020년 7월 7일

    • Java 버전을 1.8.0_232에서 1.8.0_252로 업그레이드했습니다.
  • 2020년 4월 21일

    • [SPARK-31312][SQL] HiveFunctionWrapper의 UDF 인스턴스에 대한 캐시 클래스 인스턴스
  • 2020년 4월 7일

    • PyArrow 0.15.0 이상에서 작동하지 않는 pandas udf 문제를 해결하기 위해 환경 변수(ARROW_PRE_0_15_IPC_FORMAT=1)를 추가하여 해당 버전의 PyArrow를 지원합니다. [SPARK-29367]의 지침을 참조하세요.
  • 2020년 3월 25일

    • Databricks Runtime에 포함된 Snowflake 커넥터(spark-snowflake_2.11)가 버전 2.5.9로 업데이트되었습니다. snowflake-jdbc가 버전 3.12.0으로 업데이트되었습니다.
  • 2020년 3월 10월

    • stdout으로 내보내진 로그 출력과 같은 작업 출력에는 20MB 크기 제한이 적용됩니다. 총 출력의 크기가 더 크면 실행이 취소되고 실패한 것으로 표시됩니다. 이 제한이 발생하지 않도록 spark.databricks.driver.disableScalaOutput Spark 구성을 true로 설정하여 드라이버에서 stdout이 반환되는 것을 방지할 수 있습니다. 기본적으로 플래그 값은 false입니다. 플래그는 Scala JAR 작업 및 Scala Notebook에 대한 셀 출력을 제어합니다. 플래그가 사용하도록 설정되면 Spark에서 작업 실행 결과를 클라이언트에 반환하지 않습니다. 플래그는 클러스터의 로그 파일에 기록되는 데이터에 영향을 미치지 않습니다. 이 플래그를 설정하면 Notebook 결과가 사용하지 않도록 설정되므로 JAR 작업의 자동화된 클러스터에만 권장됩니다.
  • 2020년 2월 18일

    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0에서 예외가 throw되어야 합니다.
    • ADLS Gen2를 사용한 자격 증명 통과는 ADLS 클라이언트 미리 가져오기가 사용하도록 설정된 경우 잘못된 스레드 로컬 처리로 인해 성능이 저하됩니다. 이 릴리스에서는 적절한 수정 사항이 있을 때까지 자격 증명 통과가 사용하도록 설정된 경우 ADLS Gen2 미리 가져오기를 사용하지 않도록 설정합니다.
  • 2020년 1월 28일

    • [SPARK-30447][SQL] 상수 전파 null 허용 여부 문제입니다.
  • 2020년 1월 14일

    • Java 버전을 1.8.0_222에서 1.8.0_232로 업그레이드했습니다.
  • 2019년 11월 19일

    • [SPARK-29743] [SQL] 샘플은 자식의 needCopyResult가 true인 경우 needCopyResult를 true로 설정해야 합니다.
    • R 버전이 의도치 않게 3.6.0에서 3.6.1로 업그레이드되었습니다. 3.6.0으로 다시 다운그레이드했습니다.
  • 2019 년 11 월 5 일

    • Java 버전이 1.8.0_212에서 1.8.0_222로 업그레이드되었습니다.
  • 2019년 10월 23일

    • [SPARK-29244][CORE] BytesToBytesMap에서 해제된 페이지가 다시 해제되지 않도록 방지합니다.
  • 2019년 10월 8일

    • Simba Apache Spark ODBC 드라이버가 결과를 가져오는 동안 연결 실패 후 다시 연결하고 계속할 수 있도록 서버 쪽이 변경되었습니다(Simba Apache Spark ODBC 드라이버 버전 2.6.10 필요).
    • 테이블 ACL이 사용하도록 설정된 클러스터에서 Optimize 명령을 사용하는 데 영향을 미치는 문제가 수정되었습니다.
    • 테이블 ACL의 Scala UDF 사용할 수 없음 오류 및 자격 증명 통과 지원 클러스터로 인해 pyspark.ml 라이브러리가 실패하는 문제가 수정되었습니다.
    • 자격 증명 통과에 대해 허용된 SerDe 및 SerDeUtil 메서드입니다.
    • WASB 클라이언트에서 오류 코드를 확인할 때 NullPointerException이 수정되었습니다.
  • 2019년 9월 24일

    • Parquet 작성기의 안정성이 개선되었습니다.
    • 실행을 시작하기 전에 취소된 Thrift 쿼리가 STARTED 상태에서 멈출 수 있는 문제가 수정되었습니다.
  • 2019년 9월 10일

    • BytesToBytesMap에 스레드 안전 반복자가 추가되었습니다.
    • [SPARK-27992][SPARK-28881]Python이 조인 스레드와 조인하여 오류를 전파하도록 허용합니다.
    • 특정 전역 집계 쿼리에 영향을 미치는 버그가 수정되었습니다.
    • 자격 증명 수정이 개선되었습니다.
    • [SPARK-27330][SS] foreach 작성기에서 작업 중단이 지원됩니다.
    • [SPARK-28642]SHOW CREATE TABLE에서 자격 증명을 숨깁니다.
    • [SPARK-28699][SQL] 다시 분할 사례에서 ShuffleExchangeExec에 radix 정렬을 사용하지 않습니다.
  • 2019년 8월 27일

    • [SPARK-20906][SQL]스키마 레지스트리를 사용하여 API to_avro에서 사용자 지정 스키마를 허용합니다.
    • [SPARK-27838][SQL] null 레코드가 없는 null 허용 카탈리스트 스키마에 대해 사용자 제공 null을 허용하지 않는 Avro 스키마가 지원됩니다.
    • Delta Lake 시간 이동 개선
    • 특정 transform 식에 영향을 주는 문제가 수정되었습니다.
    • 프로세스 격리가 사용하도록 설정된 경우 브로드캐스트 변수가 지원됩니다.
  • 2019년 8월 13일

    • Delta 스트리밍 원본은 테이블의 최신 프로토콜을 확인해야 합니다.
    • [SPARK-28260]ExecutionState에 CLOSED 상태가 추가되었습니다.
    • [SPARK-28489][SS]KafkaOffsetRangeCalculator.getRanges가 오프셋을 삭제할 수 있는 버그가 수정되었습니다.
  • 2019년 7월 30일

    • [SPARK-28015][SQL] stringToDate()가 yyyy 및 yy-[m]m 형식에 대한 전체 입력을 사용하는지 확인
    • [SPARK-28308][CORE] CalendarInterval 1초 미만 부분은 구문 분석 전에 패딩해야 합니다.
    • [SPARK-27485]EnsureRequirements.reorder는 중복 식을 정상적으로 처리해야 합니다.
    • [SPARK-28355][CORE][PYTHON] 브로드캐스트에 의해 UDF가 압축되는 임계값에 Spark conf를 사용합니다.

Databricks Light 2.4 추가 지원

Databricks Light 2.4(EoS)Databricks Light 2.4 추가 지원(EoS)을 참조하세요.

Databricks Runtime 7.4(EoS)

Databricks Runtime 7.4(EoS)을 참조하세요.

  • 2021년 4월 30일

    • 운영 체제 보안 업데이트.
    • [SPARK-35227][BUILD] SparkSubmit에서 park-packages에 대한 해결 프로그램을 업데이트합니다.
    • [SPARK-34245][CORE] 마스터가 완료 상태를 전송하지 못한 실행기를 제거하는지 확인합니다.
    • [SPARK-35045][SQL] 단일 입력 버퍼 제어를 위한 내부 옵션 및 CSV 입력 버퍼 크기 구성이 추가되었습니다.
  • 2021년 3월 24일

    • [SPARK-34768][SQL] Univocity에서 기본 입력 버퍼 크기를 준수합니다.
    • [SPARK-34534] FetchShuffleBlocks를 사용하여 블록을 가져올 때 blockIds 순서가 수정되었습니다.
  • 2021년 3월 9일

    • Azure Data Lake Storage Gen2용 업데이트된 Azure Blob File System 드라이버는 이제 기본적으로 사용하도록 설정됩니다. 이는 여러 가지 안정성 향상을 제공합니다.
    • [ES-67926][UI] Spark DAG Visualization의 href 링크가 수정되었습니다.
    • [ES-65064] SHOW DATABASES의 출력 스키마가 복원되었습니다.
    • [SC-70522][SQL] 범위 조인 힌트가 있는 경우 올바른 동적 정리 빌드 키를 사용합니다.
    • [SC-35081] 디스크 캐시의 Delta 테이블 파일에 대한 부실 검사 사용 안 함
    • [SC-70640] EventGridClient 응답에 엔터티가 없을 때 NPE가 수정되었습니다.
    • [SC-70220][SQL] AOS를 사용하는 경우 파티션 번호 섞기 조언을 생성하지 마세요.
  • 2021년 2월 24일

    • Spark BigQuery 커넥터를 v0.18로 업그레이드하여 화살표 및 Avro 반복기에 대한 다양한 버그 수정 및 지원이 도입되었습니다.
    • Parquet 파일의 소수 자릿수와 스케일이 Spark 스키마와 다른 경우 Spark가 잘못된 결과를 반환하는 정확성 문제가 수정되었습니다.
    • Spark SQL에 대한 지오메트리 및 지리 JDBC 형식 지원을 추가하여 공간 데이터 형식이 포함된 Microsoft SQL Server 테이블의 읽기 실패 문제가 수정되었습니다.
    • 새 구성 spark.databricks.hive.metastore.init.reloadFunctions.enabled를 도입했습니다. 이 구성은 기본 제공 Hive 초기화를 제어합니다. true로 설정하면 Azure Databricks는 사용자가 보유한 모든 데이터베이스의 모든 함수를 FunctionRegistry에 다시 로드합니다. 이는 Hive Metastore의 기본 동작입니다. false로 설정하면 Azure Databricks는 최적화를 위해 이 프로세스를 사용하지 않도록 설정합니다.
    • [SPARK-34212] Parquet 파일에서 10진수 데이터 읽기와 관련된 문제가 수정되었습니다.
    • [SPARK-33579][UI] 프록시 뒤의 실행기 빈 페이지가 수정되었습니다.
    • [SPARK-20044][UI] 경로 접두사를 사용하여 프런트 엔드 역방향 프록시 뒤에서 Spark UI가 지원됩니다.
    • [SPARK-33277][PYSPARK][SQL] ContextAwareIterator를 사용하여 작업 종료 후 사용을 중지합니다.
  • 2021년 2월 4일

    • SELECT * FROM table LIMIT nrows와 같은 전역 제한을 설정하는 쿼리의 증분 실행을 방지하는 회귀가 수정되었습니다. 화살표 serialization을 사용하도록 설정된 ODBC/JDBC를 통해 쿼리를 실행하는 사용자에게 회귀가 발생했습니다.
    • 클러스터 환경 변수 구성에 잘못된 bash 구문이 포함된 경우 DBFS FUSE가 시작되지 않는 회귀가 수정되었습니다.
  • 2021년 1월 20일

    • 잘못된 AnalysisException을 발생시키고 열이 자체 조인에서 모호하다고 말할 수 있는 2021년 1월 12일 유지 관리 릴리스의 회귀가 수정되었습니다. 이 회귀는 사용자가 다음 조건에서 파생된 DataFrame(소위 자체 조인)과 DataFrame을 조인할 때 발생합니다.
      • 이 두 DataFrame에는 공통 열이 있지만 자체 조인의 출력에는 공통 열이 없습니다. 예를 들어 df.join(df.select($"col" as "new_col"), cond)
      • 파생된 DataFrame은 select, groupBy 또는 window를 통해 일부 열을 제외합니다.
      • 조인 조건 또는 조인된 Dataframe 이후의 다음 변환은 비공통 열을 참조하세요. 예를 들어 df.join(df.drop("a"), df("a") === 1)
  • 2021년 1월 12일

    • 운영 체제 보안 업데이트.
    • [SPARK-33593][SQL] 벡터 판독기에 이진 파일 파티션 값이 있는 잘못된 데이터가 있습니다.
    • [SPARK-33677][SQL] 패턴에 escapeChar가 포함된 경우 LikeSimplification 규칙을 건너뜁니다.
    • [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoin을 중단하지 않도록 join()에서 LogicalPlan의 dataset_id를 변경하지 않도록 합니다.
  • 2020년 12월 8일

    • [SPARK-33587][CORE] 중첩된 치명적 오류에서 실행기를 종료합니다.
    • [SPARK-27421][SQL] 파티션 열을 제거할 때 int 열 및 값 클래스 java.lang.String에 대한 필터를 수정합니다.
    • [SPARK-33316][SQL] Avro 쓰기에서 nullable이 아닌 카탈리스트 스키마에 대해 사용자 제공 null 허용 Avro 스키마가 지원됩니다.
    • 운영 체제 보안 업데이트.
  • 2020년 12월 1일

    • [SPARK-33404][SQL][3.0] date_trunc 식의 잘못된 결과가 수정되었습니다.
    • [SPARK-33339][PYTHON] 예외가 아닌 오류로 인해 Pyspark 애플리케이션이 중단되었습니다.
    • [SPARK-33183][SQL][HOTFIX] 최적화 프로그램 규칙 제거를 수정하고 중복 정렬을 제거하는 물리적 규칙을 추가합니다.
    • [SPARK-33371][PYTHON][3.0] Python 3.9용 setup.py 및 테스트를 업데이트합니다.
    • [SPARK-33391][SQL] CreateArray를 사용하는 element_at에 하나의 기반 인덱스가 적용되지 않습니다.
    • [SPARK-33306][SQL]날짜를 문자열로 변환할 때 시간대가 필요합니다.
    • [SPARK-33260][SQL] sortOrder가 Stream인 경우 SortExec의 잘못된 결과가 수정되었습니다.
    • [SPARK-33272][SQL] QueryPlan.transformUpWithNewOutput에서 특성 매핑이 정리되었습니다.

Databricks Runtime 7.2(EoS)

Databricks Runtime 7.2(EoS)을 참조하세요.

  • 2021년 2월 4일

    • SELECT * FROM table LIMIT nrows와 같은 전역 제한을 설정하는 쿼리의 증분 실행을 방지하는 회귀가 수정되었습니다. 화살표 serialization을 사용하도록 설정된 ODBC/JDBC를 통해 쿼리를 실행하는 사용자에게 회귀가 발생했습니다.
    • 클러스터 환경 변수 구성에 잘못된 bash 구문이 포함된 경우 DBFS FUSE가 시작되지 않는 회귀가 수정되었습니다.
  • 2021년 1월 20일

    • 잘못된 AnalysisException을 발생시키고 열이 자체 조인에서 모호하다고 말할 수 있는 2021년 1월 12일 유지 관리 릴리스의 회귀가 수정되었습니다. 이 회귀는 사용자가 다음 조건에서 파생된 DataFrame(소위 자체 조인)과 DataFrame을 조인할 때 발생합니다.
      • 이 두 DataFrame에는 공통 열이 있지만 자체 조인의 출력에는 공통 열이 없습니다. 예를 들어 df.join(df.select($"col" as "new_col"), cond)
      • 파생된 DataFrame은 select, groupBy 또는 window를 통해 일부 열을 제외합니다.
      • 조인 조건 또는 조인된 Dataframe 이후의 다음 변환은 비공통 열을 참조하세요. 예를 들어 df.join(df.drop("a"), df("a") === 1)
  • 2021년 1월 12일

    • 운영 체제 보안 업데이트.
    • [SPARK-33593][SQL] 벡터 판독기에 이진 파일 파티션 값이 있는 잘못된 데이터가 있습니다.
    • [SPARK-33677][SQL] 패턴에 escapeChar가 포함된 경우 LikeSimplification 규칙을 건너뜁니다.
    • [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoin을 중단하지 않도록 join()에서 LogicalPlan의 dataset_id를 변경하지 않도록 합니다.
  • 2020년 12월 8일

    • [SPARK-27421][SQL] 파티션 열을 제거할 때 int 열 및 값 클래스 java.lang.String에 대한 필터를 수정합니다.
    • [SPARK-33404][SQL] date_trunc 식의 잘못된 결과가 수정되었습니다.
    • [SPARK-33339][PYTHON] 예외가 아닌 오류로 인해 Pyspark 애플리케이션이 중단되었습니다.
    • [SPARK-33183][SQL] Optimizer 규칙 EliminateSorts 수정 및 중복 정렬 제거를 위한 물리적 규칙이 추가되었습니다.
    • [SPARK-33391][SQL] CreateArray를 사용하는 element_at에 하나의 기반 인덱스가 적용되지 않습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 12월 1일

    • [SPARK-33306][SQL]날짜를 문자열로 변환할 때 시간대가 필요합니다.
    • [SPARK-33260][SQL] sortOrder가 Stream인 경우 SortExec의 잘못된 결과가 수정되었습니다.
  • 2020년 11월 3일

    • Java 버전을 1.8.0_252에서 1.8.0_265로 업그레이드했습니다.
    • UserGroupInformation.getCurrentUser()와 관련된 ABFS 및 WASB 잠금이 수정되었습니다.
    • MAGIC 바이트를 읽을 때 Avro 판독기의 무한 루프 버그가 수정되었습니다.
  • 2020년 10월 13일

    • 운영 체제 보안 업데이트.
    • [SPARK-32999][SQL] Utils.getSimpleName을 사용하여 TreeNode에서 형식이 잘못된 클래스 이름을 사용하지 않도록 합니다.
    • 잘못된 XML 문자가 있는 파일 이름이 포함된 FUSE 탑재의 목록 디렉터리가 수정되었습니다.
    • FUSE 탑재가 더 이상 ListMultipartUploads를 사용하지 않습니다.
  • 2020년 9월 29일

    • [SPARK-28863][SQL][WARMFIX] V1FallbackWriters의 재분석을 방지하기 위해 AlreadyOptimized가 도입되었습니다.
    • [SPARK-32635][SQL] 폴딩 가능 전파가 수정되었습니다.
    • 새 구성 spark.shuffle.io.decoder.consolidateThreshold를 추가합니다. config 값을 Long.MAX_VALUE로 설정하여 netty FrameBuffers의 통합을 건너뛰고 코너 케이스에서 java.lang.IndexOutOfBoundsException을 방지합니다.
  • 2020년 9월 24일

    • [SPARK-32764][SQL] -0.0은 0.0과 같아야 합니다.
    • [SPARK-32753][SQL] 계획을 변환할 때 태그가 없는 노드에만 태그가 복사됩니다.
    • [SPARK-32659][SQL] 비원자성 형식에서 삽입된 동적 파티션 정리의 데이터 문제가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 9월 8일

    • Azure Synapse Analytics, maxbinlength에 대한 새 매개 변수가 만들어졌습니다. 이 매개 변수는 BinaryType 열의 열 길이를 제어하는 데 사용되며 VARBINARY(maxbinlength)로 변환됩니다. .option("maxbinlength", n)를 사용하여 설정할 수 있습니다. 여기서 0 < n <= 8000입니다.

Databricks Runtime 7.1(EoS)

Databricks Runtime 7.1(EoS)을 참조하세요.

  • 2021년 2월 4일

    • 클러스터 환경 변수 구성에 잘못된 bash 구문이 포함된 경우 DBFS FUSE가 시작되지 않는 회귀가 수정되었습니다.
  • 2021년 1월 20일

    • 잘못된 AnalysisException을 발생시키고 열이 자체 조인에서 모호하다고 말할 수 있는 2021년 1월 12일 유지 관리 릴리스의 회귀가 수정되었습니다. 이 회귀는 사용자가 다음 조건에서 파생된 DataFrame(소위 자체 조인)과 DataFrame을 조인할 때 발생합니다.
      • 이 두 DataFrame에는 공통 열이 있지만 자체 조인의 출력에는 공통 열이 없습니다. 예를 들어 df.join(df.select($"col" as "new_col"), cond)
      • 파생된 DataFrame은 select, groupBy 또는 window를 통해 일부 열을 제외합니다.
      • 조인 조건 또는 조인된 Dataframe 이후의 다음 변환은 비공통 열을 참조하세요. 예를 들어 df.join(df.drop("a"), df("a") === 1)
  • 2021년 1월 12일

    • 운영 체제 보안 업데이트.
    • [SPARK-33593][SQL] 벡터 판독기에 이진 파일 파티션 값이 있는 잘못된 데이터가 있습니다.
    • [SPARK-33677][SQL] 패턴에 escapeChar가 포함된 경우 LikeSimplification 규칙을 건너뜁니다.
    • [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoin을 중단하지 않도록 join()에서 LogicalPlan의 dataset_id를 변경하지 않도록 합니다.
  • 2020년 12월 8일

    • [SPARK-27421][SQL] 파티션 열을 제거할 때 int 열 및 값 클래스 java.lang.String에 대한 필터를 수정합니다.
    • Databricks 커넥터를 사용하여 시작된 Spark 작업은 실행기 스택 추적에서 Executor$TaskRunner.$anonfun$copySessionState와 함께 무기한 중단될 수 있습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 12월 1일

    • [SPARK-33404][SQL][3.0] date_trunc 식의 잘못된 결과가 수정되었습니다.
    • [SPARK-33339][PYTHON] 예외가 아닌 오류로 인해 Pyspark 애플리케이션이 중단되었습니다.
    • [SPARK-33183][SQL][HOTFIX] 최적화 프로그램 규칙 제거를 수정하고 중복 정렬을 제거하는 물리적 규칙을 추가합니다.
    • [SPARK-33371][PYTHON][3.0] Python 3.9용 setup.py 및 테스트를 업데이트합니다.
    • [SPARK-33391][SQL] CreateArray를 사용하는 element_at에 하나의 기반 인덱스가 적용되지 않습니다.
    • [SPARK-33306][SQL]날짜를 문자열로 변환할 때 시간대가 필요합니다.
  • 2020년 11월 3일

    • Java 버전을 1.8.0_252에서 1.8.0_265로 업그레이드했습니다.
    • UserGroupInformation.getCurrentUser()와 관련된 ABFS 및 WASB 잠금이 수정되었습니다.
    • MAGIC 바이트를 읽을 때 Avro 판독기의 무한 루프 버그가 수정되었습니다.
  • 2020년 10월 13일

    • 운영 체제 보안 업데이트.
    • [SPARK-32999][SQL] Utils.getSimpleName을 사용하여 TreeNode에서 형식이 잘못된 클래스 이름을 사용하지 않도록 합니다.
    • 잘못된 XML 문자가 있는 파일 이름이 포함된 FUSE 탑재의 목록 디렉터리가 수정되었습니다.
    • FUSE 탑재가 더 이상 ListMultipartUploads를 사용하지 않습니다.
  • 2020년 9월 29일

    • [SPARK-28863][SQL][WARMFIX] V1FallbackWriters의 재분석을 방지하기 위해 AlreadyOptimized가 도입되었습니다.
    • [SPARK-32635][SQL] 폴딩 가능 전파가 수정되었습니다.
    • 새 구성 spark.shuffle.io.decoder.consolidateThreshold를 추가합니다. config 값을 Long.MAX_VALUE로 설정하여 netty FrameBuffers의 통합을 건너뛰고 코너 케이스에서 java.lang.IndexOutOfBoundsException을 방지합니다.
  • 2020년 9월 24일

    • [SPARK-32764][SQL] -0.0은 0.0과 같아야 합니다.
    • [SPARK-32753][SQL] 계획을 변환할 때 태그가 없는 노드에만 태그가 복사됩니다.
    • [SPARK-32659][SQL] 비원자성 형식에서 삽입된 동적 파티션 정리의 데이터 문제가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 9월 8일

    • Azure Synapse Analytics, maxbinlength에 대한 새 매개 변수가 만들어졌습니다. 이 매개 변수는 BinaryType 열의 열 길이를 제어하는 데 사용되며 VARBINARY(maxbinlength)로 변환됩니다. .option("maxbinlength", n)를 사용하여 설정할 수 있습니다. 여기서 0 < n <= 8000입니다.
  • 2020년 8월 25일

    • [SPARK-32159][SQL] Aggregator[Array[_], _, _]UnresolvedMapObjects 간의 통합이 수정되었습니다.
    • [SPARK-32559][SQL] 비 ASCII 문자를 올바르게 처리하지 않는 UTF8String.toInt/toLong의 트림 논리가 수정되었습니다.
    • [SPARK-32543][R] SparkR에서 arrow::as_tibble 사용량이 제거되었습니다.
    • [SPARK-32091][CORE] 손실된 실행기에서 블록을 제거할 때 시간 초과 오류가 무시됩니다.
    • MSI 자격 증명이 있는 Azure Synapse 커넥터에 영향을 주는 문제가 수정되었습니다.
    • 자체 병합에서 모호한 특성 해결이 수정되었습니다.
  • 2020년 8월 18일

    • [SPARK-32594][SQL] Hive 테이블에 삽입된 날짜의 serialization이 수정되었습니다.
    • [SPARK-32237][SQL] CTE에서 힌트가 해결되었습니다.
    • [SPARK-32431][SQL] 내장 데이터 원본에서 읽을 때 중복된 중첩 열을 확인합니다.
    • [SPARK-32467][UI] https 리디렉션에서 URL을 두 번 인코딩하지 않도록 합니다.
    • Trigger.Once를 사용할 때 AQS 커넥터의 경합 상태가 수정되었습니다.
  • 2020년 8월 11일

    • [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight는 충돌 계획의 상위 노드에 대한 특성만 다시 작성해야 합니다.
    • [SPARK-32234][SQL] Spark SQL 명령이 ORC 테이블 선택에 실패합니다.
  • 2020년 8월 3일

    • 이제 통과 지원 클러스터에서 LDA 변환 함수를 사용할 수 있습니다.

Databricks Runtime 7.0(EoS)

Databricks Runtime 7.0(EoS)을 참조하세요.

  • 2021년 2월 4일

    • 클러스터 환경 변수 구성에 잘못된 bash 구문이 포함된 경우 DBFS FUSE가 시작되지 않는 회귀가 수정되었습니다.
  • 2021년 1월 20일

    • 잘못된 AnalysisException을 발생시키고 열이 자체 조인에서 모호하다고 말할 수 있는 2021년 1월 12일 유지 관리 릴리스의 회귀가 수정되었습니다. 이 회귀는 사용자가 다음 조건에서 파생된 DataFrame(소위 자체 조인)과 DataFrame을 조인할 때 발생합니다.
      • 이 두 DataFrame에는 공통 열이 있지만 자체 조인의 출력에는 공통 열이 없습니다. 예를 들어 df.join(df.select($"col" as "new_col"), cond)
      • 파생된 DataFrame은 select, groupBy 또는 window를 통해 일부 열을 제외합니다.
      • 조인 조건 또는 조인된 Dataframe 이후의 다음 변환은 비공통 열을 참조하세요. 예를 들어 df.join(df.drop("a"), df("a") === 1)
  • 2021년 1월 12일

    • 운영 체제 보안 업데이트.
    • [SPARK-33593][SQL] 벡터 판독기에 이진 파일 파티션 값이 있는 잘못된 데이터가 있습니다.
    • [SPARK-33677][SQL] 패턴에 escapeChar가 포함된 경우 LikeSimplification 규칙을 건너뜁니다.
    • [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoin을 중단하지 않도록 join()에서 LogicalPlan의 dataset_id를 변경하지 않도록 합니다.
  • 2020년 12월 8일

    • [SPARK-27421][SQL] 파티션 열을 제거할 때 int 열 및 값 클래스 java.lang.String에 대한 필터를 수정합니다.
    • [SPARK-33404][SQL] date_trunc 식의 잘못된 결과가 수정되었습니다.
    • [SPARK-33339][PYTHON] 예외가 아닌 오류로 인해 Pyspark 애플리케이션이 중단되었습니다.
    • [SPARK-33183][SQL] Optimizer 규칙 EliminateSorts 수정 및 중복 정렬 제거를 위한 물리적 규칙이 추가되었습니다.
    • [SPARK-33391][SQL] CreateArray를 사용하는 element_at에 하나의 기반 인덱스가 적용되지 않습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 12월 1일

    • [SPARK-33306][SQL]날짜를 문자열로 변환할 때 시간대가 필요합니다.
  • 2020년 11월 3일

    • Java 버전을 1.8.0_252에서 1.8.0_265로 업그레이드했습니다.
    • UserGroupInformation.getCurrentUser()와 관련된 ABFS 및 WASB 잠금이 수정되었습니다.
    • MAGIC 바이트를 읽을 때 Avro 판독기의 무한 루프 버그가 수정되었습니다.
  • 2020년 10월 13일

    • 운영 체제 보안 업데이트.
    • [SPARK-32999][SQL] Utils.getSimpleName을 사용하여 TreeNode에서 형식이 잘못된 클래스 이름을 사용하지 않도록 합니다.
    • 잘못된 XML 문자가 있는 파일 이름이 포함된 FUSE 탑재의 목록 디렉터리가 수정되었습니다.
    • FUSE 탑재가 더 이상 ListMultipartUploads를 사용하지 않습니다.
  • 2020년 9월 29일

    • [SPARK-28863][SQL][WARMFIX] V1FallbackWriters의 재분석을 방지하기 위해 AlreadyOptimized가 도입되었습니다.
    • [SPARK-32635][SQL] 폴딩 가능 전파가 수정되었습니다.
    • 새 구성 spark.shuffle.io.decoder.consolidateThreshold를 추가합니다. config 값을 Long.MAX_VALUE로 설정하여 netty FrameBuffers의 통합을 건너뛰고 코너 케이스에서 java.lang.IndexOutOfBoundsException을 방지합니다.
  • 2020년 9월 24일

    • [SPARK-32764][SQL] -0.0은 0.0과 같아야 합니다.
    • [SPARK-32753][SQL] 계획을 변환할 때 태그가 없는 노드에만 태그가 복사됩니다.
    • [SPARK-32659][SQL] 비원자성 형식에서 삽입된 동적 파티션 정리의 데이터 문제가 수정되었습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 9월 8일

    • Azure Synapse Analytics, maxbinlength에 대한 새 매개 변수가 만들어졌습니다. 이 매개 변수는 BinaryType 열의 열 길이를 제어하는 데 사용되며 VARBINARY(maxbinlength)로 변환됩니다. .option("maxbinlength", n)를 사용하여 설정할 수 있습니다. 여기서 0 < n <= 8000입니다.
  • 2020년 8월 25일

    • [SPARK-32159][SQL] Aggregator[Array[_], _, _]UnresolvedMapObjects 간의 통합이 수정되었습니다.
    • [SPARK-32559][SQL] 비 ASCII 문자를 올바르게 처리하지 않는 UTF8String.toInt/toLong의 트림 논리가 수정되었습니다.
    • [SPARK-32543][R] SparkR에서 arrow::as_tibble 사용량이 제거되었습니다.
    • [SPARK-32091][CORE] 손실된 실행기에서 블록을 제거할 때 시간 초과 오류가 무시됩니다.
    • MSI 자격 증명이 있는 Azure Synapse 커넥터에 영향을 주는 문제가 수정되었습니다.
    • 자체 병합에서 모호한 특성 해결이 수정되었습니다.
  • 2020년 8월 18일

    • [SPARK-32594][SQL] Hive 테이블에 삽입된 날짜의 serialization이 수정되었습니다.
    • [SPARK-32237][SQL] CTE에서 힌트가 해결되었습니다.
    • [SPARK-32431][SQL] 내장 데이터 원본에서 읽을 때 중복된 중첩 열을 확인합니다.
    • [SPARK-32467][UI] https 리디렉션에서 URL을 두 번 인코딩하지 않도록 합니다.
    • Trigger.Once를 사용할 때 AQS 커넥터의 경합 상태가 수정되었습니다.
  • 2020년 8월 11일

    • [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight는 충돌 계획의 상위 노드에 대한 특성만 다시 작성해야 합니다.
    • [SPARK-32234][SQL] Spark SQL 명령이 ORC 테이블 선택에 실패합니다.
    • 이제 통과 지원 클러스터에서 LDA 변환 함수를 사용할 수 있습니다.

Databricks Runtime 6.6(EoS)

Databricks Runtime 6.6(EoS)을 참조하세요.

  • 2020년 12월 1일

    • [SPARK-33260][SQL] sortOrder가 Stream인 경우 SortExec의 잘못된 결과가 수정되었습니다.
    • [SPARK-32635][SQL] 폴딩 가능 전파가 수정되었습니다.
  • 2020년 11월 3일

    • Java 버전을 1.8.0_252에서 1.8.0_265로 업그레이드했습니다.
    • UserGroupInformation.getCurrentUser()와 관련된 ABFS 및 WASB 잠금이 수정되었습니다.
    • MAGIC 바이트를 읽을 때 Avro 판독기의 무한 루프 버그가 수정되었습니다.
  • 2020년 10월 13일

    • 운영 체제 보안 업데이트.
    • [SPARK-32999][SQL][2.4] Utils.getSimpleName을 사용하여 TreeNode에서 형식이 잘못된 클래스 이름을 사용하지 않도록 합니다.
    • 잘못된 XML 문자가 있는 파일 이름이 포함된 FUSE 탑재의 목록 디렉터리가 수정되었습니다.
    • FUSE 탑재가 더 이상 ListMultipartUploads를 사용하지 않습니다.
  • 2020년 9월 24일

    • 운영 체제 보안 업데이트.
  • 2020년 9월 8일

    • Azure Synapse Analytics, maxbinlength에 대한 새 매개 변수가 만들어졌습니다. 이 매개 변수는 BinaryType 열의 열 길이를 제어하는 데 사용되며 VARBINARY(maxbinlength)로 변환됩니다. .option("maxbinlength", n)를 사용하여 설정할 수 있습니다. 여기서 0 < n <= 8000입니다.
    • Azure Storage SDK를 8.6.4로 업데이트하고 WASB 드라이버에서 만든 연결에서 TCP를 계속 사용할 수 있도록 합니다.
  • 2020년 8월 25일

    • 자체 병합에서 모호한 특성 해결이 수정되었습니다.
  • 2020년 8월 18일

    • [SPARK-32431][SQL] 내장 데이터 원본에서 읽을 때 중복된 중첩 열을 확인합니다.
    • Trigger.Once를 사용할 때 AQS 커넥터의 경합 상태가 수정되었습니다.
  • 2020년 8월 11일

    • [SPARK-28676][CORE] ContextCleaner에서 과도한 로깅을 방지합니다.
    • [SPARK-31967][UI] 작업 UI 로드 시간 회귀를 수정하기 위해 vis.js 4.21.0으로 다운그레이드되었습니다.
  • 2020년 8월 3일

    • 이제 통과 지원 클러스터에서 LDA 변환 함수를 사용할 수 있습니다.
    • 운영 체제 보안 업데이트.

Databricks Runtime 6.5(EoS)

Databricks Runtime 6.5(EoS)을 참조하세요.

  • 2020년 9월 24일
    • 표준 클러스터의 패스스루가 여전히 파일 시스템 구현 사용자 사용을 제한하는 이전 제한을 수정했습니다. 이제 사용자는 제한 없이 로컬 파일 시스템에 액세스할 수 있습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 9월 8일
    • Azure Synapse Analytics, maxbinlength에 대한 새 매개 변수가 만들어졌습니다. 이 매개 변수는 BinaryType 열의 열 길이를 제어하는 데 사용되며 VARBINARY(maxbinlength)로 변환됩니다. .option("maxbinlength", n)를 사용하여 설정할 수 있습니다. 여기서 0 < n <= 8000입니다.
    • Azure Storage SDK를 8.6.4로 업데이트하고 WASB 드라이버에서 만든 연결에서 TCP를 계속 사용할 수 있도록 합니다.
  • 2020년 8월 25일
    • 자체 병합에서 모호한 특성 해결이 수정되었습니다.
  • 2020년 8월 18일
    • [SPARK-32431][SQL] 내장 데이터 원본에서 읽을 때 중복된 중첩 열을 확인합니다.
    • Trigger.Once를 사용할 때 AQS 커넥터의 경합 상태가 수정되었습니다.
  • 2020년 8월 11일
    • [SPARK-28676][CORE] ContextCleaner에서 과도한 로깅을 방지합니다.
  • 2020년 8월 3일
    • 이제 통과 지원 클러스터에서 LDA 변환 함수를 사용할 수 있습니다.
    • 운영 체제 보안 업데이트.
  • 2020년 7월 7일
    • Java 버전이 1.8.0_242에서 1.8.0_252로 업그레이드되었습니다.
  • 2020년 4월 21일
    • [SPARK-31312][SQL] HiveFunctionWrapper의 UDF 인스턴스에 대한 캐시 클래스 인스턴스

Databricks Runtime 6.3(EoS)

Databricks Runtime 6.3(EoS)을 참조하세요.

  • 2020년 7월 7일
    • Java 버전을 1.8.0_232에서 1.8.0_252로 업그레이드했습니다.
  • 2020년 4월 21일
    • [SPARK-31312][SQL] HiveFunctionWrapper의 UDF 인스턴스에 대한 캐시 클래스 인스턴스
  • 2020년 4월 7일
    • PyArrow 0.15.0 이상에서 작동하지 않는 pandas udf 문제를 해결하기 위해 환경 변수(ARROW_PRE_0_15_IPC_FORMAT=1)를 추가하여 해당 버전의 PyArrow를 지원합니다. [SPARK-29367]의 지침을 참조하세요.
  • 2020년 3월 10월
    • Databricks Runtime에 포함된 Snowflake 커넥터(spark-snowflake_2.11)가 버전 2.5.9로 업데이트되었습니다. snowflake-jdbc가 버전 3.12.0으로 업데이트되었습니다.
  • 2020년 2월 18일
    • ADLS Gen2를 사용한 자격 증명 통과는 ADLS 클라이언트 미리 가져오기가 사용하도록 설정된 경우 잘못된 스레드 로컬 처리로 인해 성능이 저하됩니다. 이 릴리스에서는 적절한 수정 사항이 있을 때까지 자격 증명 통과가 사용하도록 설정된 경우 ADLS Gen2 미리 가져오기를 사용하지 않도록 설정합니다.
  • 2020년 2월 11일
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0에서 예외가 throw되어야 합니다.
    • [SPARK-30447][SQL] 상수 전파 null 허용 여부 문제
    • [SPARK-28152][SQL] 이전 MsSqlServerDialect 숫자 매핑에 대한 레거시 conf 추가
    • MLModels가 MLWriter를 확장하여 함수를 호출할 수 있도록 덮어쓰기 함수를 허용했습니다.

Databricks Runtime 6.2(EoS)

Databricks Runtime 6.2(EoS)을 참조하세요.

  • 2020년 4월 21일
    • [SPARK-31312][SQL] HiveFunctionWrapper의 UDF 인스턴스에 대한 캐시 클래스 인스턴스
  • 2020년 4월 7일
    • PyArrow 0.15.0 이상에서 작동하지 않는 pandas udf 문제를 해결하기 위해 환경 변수(ARROW_PRE_0_15_IPC_FORMAT=1)를 추가하여 해당 버전의 PyArrow를 지원합니다. [SPARK-29367]의 지침을 참조하세요.
  • 2020년 3월 25일
    • stdout으로 내보내진 로그 출력과 같은 작업 출력에는 20MB 크기 제한이 적용됩니다. 총 출력의 크기가 더 크면 실행이 취소되고 실패한 것으로 표시됩니다. 이 제한이 발생하지 않도록 spark.databricks.driver.disableScalaOutput Spark 구성을 true로 설정하여 드라이버에서 stdout이 반환되는 것을 방지할 수 있습니다. 기본적으로 플래그 값은 false입니다. 플래그는 Scala JAR 작업 및 Scala Notebook에 대한 셀 출력을 제어합니다. 플래그가 사용하도록 설정되면 Spark에서 작업 실행 결과를 클라이언트에 반환하지 않습니다. 플래그는 클러스터의 로그 파일에 기록되는 데이터에 영향을 미치지 않습니다. 이 플래그를 설정하면 Notebook 결과가 사용하지 않도록 설정되므로 JAR 작업의 자동화된 클러스터에만 권장됩니다.
  • 2020년 3월 10월
    • Databricks Runtime에 포함된 Snowflake 커넥터(spark-snowflake_2.11)가 버전 2.5.9로 업데이트되었습니다. snowflake-jdbc가 버전 3.12.0으로 업데이트되었습니다.
  • 2020년 2월 18일
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0에서 예외가 throw되어야 합니다.
    • ADLS Gen2를 사용한 자격 증명 통과는 ADLS 클라이언트 미리 가져오기가 사용하도록 설정된 경우 잘못된 스레드 로컬 처리로 인해 성능이 저하됩니다. 이 릴리스에서는 적절한 수정 사항이 있을 때까지 자격 증명 통과가 사용하도록 설정된 경우 ADLS Gen2 미리 가져오기를 사용하지 않도록 설정합니다.
  • 2020년 1월 28일
    • 자격 증명 통과에 대해 사용하도록 설정된 클러스터에 대해 허용 목록에 있는 ML 모델 작성자의 덮어쓰기 함수를 통해 자격 증명 통과 클러스터에서 모델 저장이 덮어쓰기 모드를 사용할 수 있습니다.
    • [SPARK-30447][SQL] 상수 전파 null 허용 여부 문제입니다.
    • [SPARK-28152][SQL] 이전 MsSqlServerDialect 숫자 매핑에 대한 레거시 구성을 추가합니다.
  • 2020년 1월 14일
    • Java 버전을 1.8.0_222에서 1.8.0_232로 업그레이드했습니다.
  • 2019년 12월 10일
    • [SPARK-29904][SQL] JSON/CSV 데이터 원본을 기준으로 타임스탬프를 마이크로초 단위로 구문 분석합니다.

Databricks Runtime 6.1(EoS)

Databricks Runtime 6.1(EoS)을 참조하세요.

  • 2020년 4월 7일
    • PyArrow 0.15.0 이상에서 작동하지 않는 pandas udf 문제를 해결하기 위해 환경 변수(ARROW_PRE_0_15_IPC_FORMAT=1)를 추가하여 해당 버전의 PyArrow를 지원합니다. [SPARK-29367]의 지침을 참조하세요.
  • 2020년 3월 25일
    • stdout으로 내보내진 로그 출력과 같은 작업 출력에는 20MB 크기 제한이 적용됩니다. 총 출력의 크기가 더 크면 실행이 취소되고 실패한 것으로 표시됩니다. 이 제한이 발생하지 않도록 spark.databricks.driver.disableScalaOutput Spark 구성을 true로 설정하여 드라이버에서 stdout이 반환되는 것을 방지할 수 있습니다. 기본적으로 플래그 값은 false입니다. 플래그는 Scala JAR 작업 및 Scala Notebook에 대한 셀 출력을 제어합니다. 플래그가 사용하도록 설정되면 Spark에서 작업 실행 결과를 클라이언트에 반환하지 않습니다. 플래그는 클러스터의 로그 파일에 기록되는 데이터에 영향을 미치지 않습니다. 이 플래그를 설정하면 Notebook 결과가 사용하지 않도록 설정되므로 JAR 작업의 자동화된 클러스터에만 권장됩니다.
  • 2020년 3월 10월
    • Databricks Runtime에 포함된 Snowflake 커넥터(spark-snowflake_2.11)가 버전 2.5.9로 업데이트되었습니다. snowflake-jdbc가 버전 3.12.0으로 업데이트되었습니다.
  • 2020년 2월 18일
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0에서 예외가 throw되어야 합니다.
    • ADLS Gen2를 사용한 자격 증명 통과는 ADLS 클라이언트 미리 가져오기가 사용하도록 설정된 경우 잘못된 스레드 로컬 처리로 인해 성능이 저하됩니다. 이 릴리스에서는 적절한 수정 사항이 있을 때까지 자격 증명 통과가 사용하도록 설정된 경우 ADLS Gen2 미리 가져오기를 사용하지 않도록 설정합니다.
  • 2020년 1월 28일
    • [SPARK-30447][SQL] 상수 전파 null 허용 여부 문제입니다.
    • [SPARK-28152][SQL] 이전 MsSqlServerDialect 숫자 매핑에 대한 레거시 구성을 추가합니다.
  • 2020년 1월 14일
    • Java 버전을 1.8.0_222에서 1.8.0_232로 업그레이드했습니다.
  • 2019년 11월 7일
  • 2019년 11월 5일
    • 경로에 //가 있는 탑재 지점을 처리하기 위해 DBFS FUSE의 버그가 수정되었습니다.
    • [SPARK-29081] 속성의 SerializationUtils.clone 호출을 더 빠른 구현으로 바꿉니다.
    • [SPARK-29244][CORE] BytesToBytesMap에서 해제된 페이지가 다시 해제되지 않도록 방지합니다.
    • (6.1 ML) Library mkl 버전 2019.4가 실수로 설치되었습니다. Anaconda Distribution 2019.03과 일치하도록 mkl 버전 2019.3으로 다운그레이드했습니다.

Databricks Runtime 6.0(EoS)

Databricks Runtime 6.0(EoS)을 참조하세요.

  • 2020년 3월 25일
    • stdout으로 내보내진 로그 출력과 같은 작업 출력에는 20MB 크기 제한이 적용됩니다. 총 출력의 크기가 더 크면 실행이 취소되고 실패한 것으로 표시됩니다. 이 제한이 발생하지 않도록 spark.databricks.driver.disableScalaOutput Spark 구성을 true로 설정하여 드라이버에서 stdout이 반환되는 것을 방지할 수 있습니다. 기본적으로 플래그 값은 false입니다. 플래그는 Scala JAR 작업 및 Scala Notebook에 대한 셀 출력을 제어합니다. 플래그가 사용하도록 설정되면 Spark에서 작업 실행 결과를 클라이언트에 반환하지 않습니다. 플래그는 클러스터의 로그 파일에 기록되는 데이터에 영향을 미치지 않습니다. 이 플래그를 설정하면 Notebook 결과가 사용하지 않도록 설정되므로 JAR 작업의 자동화된 클러스터에만 권장됩니다.
  • 2020년 2월 18일
    • ADLS Gen2를 사용한 자격 증명 통과는 ADLS 클라이언트 미리 가져오기가 사용하도록 설정된 경우 잘못된 스레드 로컬 처리로 인해 성능이 저하됩니다. 이 릴리스에서는 적절한 수정 사항이 있을 때까지 자격 증명 통과가 사용하도록 설정된 경우 ADLS Gen2 미리 가져오기를 사용하지 않도록 설정합니다.
  • 2020년 2월 11일
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0에서 예외가 throw되어야 합니다.
  • 2020년 1월 28일
    • [SPARK-30447][SQL] 상수 전파 null 허용 여부 문제입니다.
    • [SPARK-28152][SQL] 이전 MsSqlServerDialect 숫자 매핑에 대한 레거시 구성을 추가합니다.
  • 2020년 1월 14일
    • Java 버전을 1.8.0_222에서 1.8.0_232로 업그레이드했습니다.
  • 2019년 11월 19일
    • [SPARK-29743] [SQL] 샘플은 자식의 needCopyResult가 true인 경우 needCopyResult를 true로 설정해야 합니다.
  • 2019년 11월 5일
    • dbutils.tensorboard.start()가 이제 TensorBoard 2.0을 지원합니다(수동으로 설치된 경우).
    • 경로에 //가 있는 탑재 지점을 처리하기 위해 DBFS FUSE의 버그가 수정되었습니다.
    • [SPARK-29081]속성의 SerializationUtils.clone 호출을 더 빠른 구현으로 바꿉니다.
  • 2019년 10월 23일
    • [SPARK-29244][CORE] BytesToBytesMap에서 해제된 페이지가 다시 해제되지 않도록 방지합니다.
  • 2019년 10월 8일
    • Simba Apache Spark ODBC 드라이버가 결과를 가져오는 동안 연결 실패 후 다시 연결하고 계속할 수 있도록 서버 쪽이 변경되었습니다(Simba Apache Spark ODBC 드라이버 버전 2.6.10 필요).
    • 테이블 ACL이 사용하도록 설정된 클러스터에서 Optimize 명령을 사용하는 데 영향을 미치는 문제가 수정되었습니다.
    • 테이블 ACL의 Scala UDF 사용할 수 없음 오류 및 자격 증명 통과 지원 클러스터로 인해 pyspark.ml 라이브러리가 실패하는 문제가 수정되었습니다.
    • 자격 증명 통과를 위해 허용된 SerDe/SerDeUtil 메서드입니다.
    • WASB 클라이언트에서 오류 코드를 확인할 때 NullPointerException이 수정되었습니다.
    • 사용자 자격 증명이 dbutils.notebook.run()에 의해 만들어진 작업에 전달되지 않는 문제가 수정되었습니다.

Databricks Runtime 5.4 ML(EoS)

Databricks Runtime 5.4을 참조하세요.

  • 2019년 6월 18일
    • Hyperopt 통합에서 MLflow 활성 실행 처리가 개선되었습니다.
    • Hyperopt의 메시지가 개선되었습니다.
    • 패키지 Marchkdown이 3.1에서 3.1.1로 업데이트되었습니다.

Databricks Runtime 5.4(EoS)

Databricks Runtime 5.4(EoS)을 참조하세요.

  • 2019년 11월 19일
    • [SPARK-29743] [SQL] 샘플은 자식의 needCopyResult가 true인 경우 needCopyResult를 true로 설정해야 합니다.
  • 2019년 10월 8일
    • Simba Apache Spark ODBC 드라이버가 결과를 가져오는 동안 연결 실패 후 다시 연결하고 계속할 수 있도록 서버 쪽이 변경되었습니다(Simba Apache Spark ODBC 드라이버를 버전 2.6.10으로 업데이트해야 함).
    • WASB 클라이언트에서 오류 코드를 확인할 때 NullPointerException이 수정되었습니다.
  • 2019년 9월 10일
    • BytesToBytesMap에 스레드 안전 반복자가 추가되었습니다.
    • 특정 전역 집계 쿼리에 영향을 미치는 버그가 수정되었습니다.
    • [SPARK-27330][SS] foreach 작성기에서 작업 중단이 지원됩니다.
    • [SPARK-28642]SHOW CREATE TABLE에서 자격 증명을 숨깁니다.
    • [SPARK-28699][SQL] 다시 분할 사례에서 ShuffleExchangeExec에 radix 정렬을 사용하지 않습니다.
    • [SPARK-28699][CORE] 불확실한 스테이지를 중단하기 위한 비정상 상황 수정
  • 2019년 8월 27일
    • 특정 transform 식에 영향을 주는 문제가 수정되었습니다.
  • 2019년 8월 13일
    • Delta 스트리밍 원본은 테이블의 최신 프로토콜을 확인해야 합니다.
    • [SPARK-28489][SS]KafkaOffsetRangeCalculator.getRanges가 오프셋을 삭제할 수 있는 버그가 수정되었습니다.
  • 2019년 7월 30일
    • [SPARK-28015][SQL] stringToDate()가 yyyy 및 yy-[m]m 형식에 대한 전체 입력을 사용하는지 확인
    • [SPARK-28308][CORE] CalendarInterval 1초 미만 부분은 구문 분석 전에 패딩해야 합니다.
    • [SPARK-27485]EnsureRequirements.reorder는 중복 식을 정상적으로 처리해야 합니다.
  • 2019년 7월 2일
    • snappy-java가 1.1.7.1에서 1.1.7.3으로 업그레이드되었습니다.
  • 2019년 6월 18일
    • MLlib 통합에서 MLflow 활성 실행 처리가 개선되었습니다.
    • 디스크 캐싱 사용과 관련된 개선된 Databricks Advisor 메시지
    • 고차 함수 사용에 영향을 미치는 버그가 수정되었습니다.
    • Delta 메타데이터 쿼리에 영향을 주는 버그가 수정되었습니다.

Databricks Runtime 5.3(EoS)

Databricks Runtime 5.3(EoS)을 참조하세요.

  • 2019년 11월 7일
    • [SPARK-29743][SQL] 샘플은 자식의 needCopyResult가 true인 경우 needCopyResult를 true로 설정해야 합니다.
  • 2019년 10월 8일
    • Simba Apache Spark ODBC 드라이버가 결과를 가져오는 동안 연결 실패 후 다시 연결하고 계속할 수 있도록 서버 쪽이 변경되었습니다(Simba Apache Spark ODBC 드라이버를 버전 2.6.10으로 업데이트해야 함).
    • WASB 클라이언트에서 오류 코드를 확인할 때 NullPointerException이 수정되었습니다.
  • 2019년 9월 10일
    • BytesToBytesMap에 스레드 안전 반복자가 추가되었습니다.
    • 특정 전역 집계 쿼리에 영향을 미치는 버그가 수정되었습니다.
    • [SPARK-27330][SS] foreach 작성기에서 작업 중단이 지원됩니다.
    • [SPARK-28642]SHOW CREATE TABLE에서 자격 증명을 숨깁니다.
    • [SPARK-28699][SQL] 다시 분할 사례에서 ShuffleExchangeExec에 radix 정렬을 사용하지 않습니다.
    • [SPARK-28699][CORE] 불확실한 스테이지를 중단하기 위한 비정상 상황 수정
  • 2019년 8월 27일
    • 특정 transform 식에 영향을 주는 문제가 수정되었습니다.
  • 2019년 8월 13일
    • Delta 스트리밍 원본은 테이블의 최신 프로토콜을 확인해야 합니다.
    • [SPARK-28489][SS]KafkaOffsetRangeCalculator.getRanges가 오프셋을 삭제할 수 있는 버그가 수정되었습니다.
  • 2019년 7월 30일
    • [SPARK-28015][SQL] stringToDate()가 yyyy 및 yy-[m]m 형식에 대한 전체 입력을 사용하는지 확인
    • [SPARK-28308][CORE] CalendarInterval 1초 미만 부분은 구문 분석 전에 패딩해야 합니다.
    • [SPARK-27485]EnsureRequirements.reorder는 중복 식을 정상적으로 처리해야 합니다.
  • 2019년 6월 18일
    • 디스크 캐싱 사용과 관련된 개선된 Databricks Advisor 메시지
    • 고차 함수 사용에 영향을 미치는 버그가 수정되었습니다.
    • Delta 메타데이터 쿼리에 영향을 주는 버그가 수정되었습니다.
  • 2019년 5월 28일
    • Delta의 안정성이 개선되었습니다.
    • Delta LAST_CHECKPOINT 파일을 읽을 때 IOException을 허용합니다.
      • 실패한 라이브러리 설치에 대한 복구가 추가되었습니다.
  • 2019년 5월 7일
    • Azure Data Lake Storage Gen2 커넥터에 HADOOP-15778(ABFS: 읽기에 대한 클라이언트 쪽 제한 수정)을 포트합니다.
    • Azure Data Lake Storage Gen2 커넥터에 HADOOP-16040(ABFS: allowOobAppends 구성에 대한 버그 수정)을 포트합니다.
    • 테이블 ACL에 영향을 주는 버그가 수정되었습니다.
    • Delta 로그 체크섬 파일을 로드할 때 경합 상태가 수정되었습니다.
    • "삽입 + 덮어쓰기"를 순수한 "추가" 작업으로 식별하지 않도록 Delta 충돌 검색 논리가 수정되었습니다.
    • 테이블 ACL이 사용하도록 설정된 경우 디스크 캐싱이 사용하지 않도록 설정되지 않았는지 확인합니다.
    • [SPARK-27494][SS] Null 키/값이 Kafka 원본 v2에서 작동하지 않습니다.
    • [SPARK-27446][R] Use existing spark conf if available.가능한 경우 기존 spark conf를 사용합니다.
    • [SPARK-27454][SPARK-27454][ML][SQL] 일부 잘못된 이미지가 발생하면 Spark 이미지 데이터 원본이 실패합니다.
    • [SPARK-27160][SQL] orc 필터를 빌드하는 경우 DecimalType 수정
    • [SPARK-27338][CORE] UnsafeExternalSorter와 TaskMemoryManager 간 교착 상태 수정

Databricks Runtime 5.2(EoS)

Databricks Runtime 5.2(EoS)을 참조하세요.

  • 2019년 9월 10일
    • BytesToBytesMap에 스레드 안전 반복자가 추가되었습니다.
    • 특정 전역 집계 쿼리에 영향을 미치는 버그가 수정되었습니다.
    • [SPARK-27330][SS] foreach 작성기에서 작업 중단이 지원됩니다.
    • [SPARK-28642]SHOW CREATE TABLE에서 자격 증명을 숨깁니다.
    • [SPARK-28699][SQL] 다시 분할 사례에서 ShuffleExchangeExec에 radix 정렬을 사용하지 않습니다.
    • [SPARK-28699][CORE] 불확실한 스테이지를 중단하기 위한 비정상 상황 수정
  • 2019년 8월 27일
    • 특정 transform 식에 영향을 주는 문제가 수정되었습니다.
  • 2019년 8월 13일
    • Delta 스트리밍 원본은 테이블의 최신 프로토콜을 확인해야 합니다.
    • [SPARK-28489][SS]KafkaOffsetRangeCalculator.getRanges가 오프셋을 삭제할 수 있는 버그가 수정되었습니다.
  • 2019년 7월 30일
    • [SPARK-28015][SQL] stringToDate()가 yyyy 및 yy-[m]m 형식에 대한 전체 입력을 사용하는지 확인
    • [SPARK-28308][CORE] CalendarInterval 1초 미만 부분은 구문 분석 전에 패딩해야 합니다.
    • [SPARK-27485]EnsureRequirements.reorder는 중복 식을 정상적으로 처리해야 합니다.
  • 2019년 7월 2일
    • Delta LAST_CHECKPOINT 파일을 읽을 때 IOException을 허용합니다.
  • 2019년 6월 18일
    • 디스크 캐시 사용과 관련된 개선된 Databricks Advisor 메시지
    • 고차 함수 사용에 영향을 미치는 버그가 수정되었습니다.
    • Delta 메타데이터 쿼리에 영향을 주는 버그가 수정되었습니다.
  • 2019년 5월 28일
    • 실패한 라이브러리 설치에 대한 복구가 추가되었습니다.
  • 2019년 5월 7일
    • Azure Data Lake Storage Gen2 커넥터에 HADOOP-15778(ABFS: 읽기에 대한 클라이언트 쪽 제한 수정)을 포트합니다.
    • Azure Data Lake Storage Gen2 커넥터에 HADOOP-16040(ABFS: allowOobAppends 구성에 대한 버그 수정)을 포트합니다.
    • Delta 로그 체크섬 파일을 로드할 때 경합 상태가 수정되었습니다.
    • "삽입 + 덮어쓰기"를 순수한 "추가" 작업으로 식별하지 않도록 Delta 충돌 검색 논리가 수정되었습니다.
    • 테이블 ACL이 사용하도록 설정된 경우 디스크 캐싱이 사용하지 않도록 설정되지 않았는지 확인합니다.
    • [SPARK-27494][SS] Null 키/값이 Kafka 원본 v2에서 작동하지 않습니다.
    • [SPARK-27454][SPARK-27454][ML][SQL] 일부 잘못된 이미지가 발생하면 Spark 이미지 데이터 원본이 실패합니다.
    • [SPARK-27160][SQL] orc 필터를 빌드하는 경우 DecimalType 수정
    • [SPARK-27338][CORE] UnsafeExternalSorter와 TaskMemoryManager 간 교착 상태 수정
  • 2019년 3월 26일
    • 플랫폼 종속 오프셋을 전체 단계 생성 코드에 리터럴로 포함하지 않도록 합니다.
    • [SPARK-26665][CORE] BlockTransferService.fetchBlockSync가 영원히 중단될 수 있는 버그가 수정되었습니다.
    • [SPARK-27134][SQL] array_distinct 함수가 배열의 배열을 포함하는 열에서 올바르게 작동하지 않습니다.
    • [SPARK-24669][SQL] DROP DATABASE CASCADE의 경우 테이블을 무효화합니다.
    • [SPARK-26572][SQL] 집계 codegen 결과 평가가 수정되었습니다.
    • 특정 PythonUDF에 영향을 미치는 버그가 수정되었습니다.
  • 2019년 2월 26일
    • [SPARK-26864][SQL] python udf가 왼쪽 세미 조인 조건으로 사용될 때 쿼리가 잘못된 결과를 반환할 수 있습니다.
    • [SPARK-26887][PYTHON] datetime64를 중간 데이터로 만드는 대신 datetime.date를 직접 만듭니다.
    • JDBC/ODBC 서버에 영향을 주는 버그가 수정되었습니다.
    • PySpark에 영향을 미치는 버그가 수정되었습니다.
    • HadoopRDD를 빌드할 때 숨김 파일을 제외합니다.
    • serialization 문제를 일으키는 Delta의 버그가 수정되었습니다.
  • 2019년 2월 12일
    • Azure ADLS Gen2 탑재 지점에서 Delta 사용에 영향을 주는 문제가 수정되었습니다.
    • 암호화가 사용하도록 설정된 큰 RPC 오류 메시지를 보낼 때 Spark 저수준 네트워크 프로토콜이 손상될 수 있는 문제가 수정되었습니다(spark.network.crypto.enabled가 true로 설정된 경우).
  • 2019년 1월 30일
    • 캐시된 관계에 기울이기 조인 힌트를 넣을 때 발생하는 StackOverflowError가 수정되었습니다.
    • SQL 캐시의 캐시된 RDD와 실제 계획 간의 불일치로 인해 잘못된 결과가 발생하는 문제가 수정되었습니다.
    • [SPARK-26706][SQL] ByteType에 대해 illegalNumericPrecedence가 수정되었습니다.
    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery가 빈 레코드를 올바르게 처리하지 않습니다.
    • CSV/JSON 데이터 원본은 스키마를 유추할 때 globbing 경로를 피해야 합니다.
    • Window 연산자에 대한 제약 조건 유추가 수정되었습니다.
    • 테이블 ACL이 사용하도록 설정된 클러스터가 있는 Egg 라이브러리 설치에 영향을 미치는 문제가 수정되었습니다.

Databricks Runtime 5.1(EoS)

Databricks Runtime 5.1(EoS)을 참조하세요.

  • 2019년 8월 13일
    • Delta 스트리밍 원본은 테이블의 최신 프로토콜을 확인해야 합니다.
    • [SPARK-28489][SS]KafkaOffsetRangeCalculator.getRanges가 오프셋을 삭제할 수 있는 버그가 수정되었습니다.
  • 2019년 7월 30일
    • [SPARK-28015][SQL] stringToDate()가 yyyy 및 yy-[m]m 형식에 대한 전체 입력을 사용하는지 확인
    • [SPARK-28308][CORE] CalendarInterval 1초 미만 부분은 구문 분석 전에 패딩해야 합니다.
    • [SPARK-27485]EnsureRequirements.reorder는 중복 식을 정상적으로 처리해야 합니다.
  • 2019년 7월 2일
    • Delta LAST_CHECKPOINT 파일을 읽을 때 IOException을 허용합니다.
  • 2019년 6월 18일
    • 고차 함수 사용에 영향을 미치는 버그가 수정되었습니다.
    • Delta 메타데이터 쿼리에 영향을 주는 버그가 수정되었습니다.
  • 2019년 5월 28일
    • 실패한 라이브러리 설치에 대한 복구가 추가되었습니다.
  • 2019년 5월 7일
    • Azure Data Lake Storage Gen2 커넥터에 HADOOP-15778(ABFS: 읽기에 대한 클라이언트 쪽 제한 수정)을 포트합니다.
    • Azure Data Lake Storage Gen2 커넥터에 HADOOP-16040(ABFS: allowOobAppends 구성에 대한 버그 수정)을 포트합니다.
    • Delta 로그 체크섬 파일을 로드할 때 경합 상태가 수정되었습니다.
    • "삽입 + 덮어쓰기"를 순수한 "추가" 작업으로 식별하지 않도록 Delta 충돌 검색 논리가 수정되었습니다.
    • [SPARK-27494][SS] Null 키/값이 Kafka 원본 v2에서 작동하지 않습니다.
    • [SPARK-27454][SPARK-27454][ML][SQL] 일부 잘못된 이미지가 발생하면 Spark 이미지 데이터 원본이 실패합니다.
    • [SPARK-27160][SQL] orc 필터를 빌드하는 경우 DecimalType 수정
    • [SPARK-27338][CORE] UnsafeExternalSorter와 TaskMemoryManager 간 교착 상태 수정
  • 2019년 3월 26일
    • 플랫폼 종속 오프셋을 전체 단계 생성 코드에 리터럴로 포함하지 않도록 합니다.
    • 특정 PythonUDF에 영향을 미치는 버그가 수정되었습니다.
  • 2019년 2월 26일
    • [SPARK-26864][SQL] python udf가 왼쪽 세미 조인 조건으로 사용될 때 쿼리가 잘못된 결과를 반환할 수 있습니다.
    • JDBC/ODBC 서버에 영향을 주는 버그가 수정되었습니다.
    • HadoopRDD를 빌드할 때 숨김 파일을 제외합니다.
  • 2019년 2월 12일
    • 테이블 ACL이 사용하도록 설정된 클러스터가 있는 Egg 라이브러리 설치에 영향을 미치는 문제가 수정되었습니다.
    • SQL 캐시의 캐시된 RDD와 실제 계획 간의 불일치로 인해 잘못된 결과가 발생하는 문제가 수정되었습니다.
    • [SPARK-26706][SQL] ByteType에 대해 illegalNumericPrecedence가 수정되었습니다.
    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery가 빈 레코드를 올바르게 처리하지 않습니다.
    • Window 연산자에 대한 제약 조건 유추가 수정되었습니다.
    • 암호화가 사용하도록 설정된 큰 RPC 오류 메시지를 보낼 때 Spark 저수준 네트워크 프로토콜이 손상될 수 있는 문제가 수정되었습니다(spark.network.crypto.enabled가 true로 설정된 경우).
  • 2019년 1월 30일
    • 특정 경우에 UDT가 있는 df.rdd.count()가 오답을 반환할 수 있는 문제가 수정되었습니다.
    • 휠하우스 설치에 영향을 미치는 문제가 수정되었습니다.
    • [SPARK-26267]Kafka에서 잘못된 오프셋을 검색하면 다시 시도합니다.
    • 스트리밍 쿼리에서 여러 파일 스트림 원본에 영향을 주는 버그가 수정되었습니다.
    • 캐시된 관계에 기울이기 조인 힌트를 넣을 때 발생하는 StackOverflowError가 수정되었습니다.
    • SQL 캐시의 캐시된 RDD와 실제 계획 간의 불일치로 인해 잘못된 결과가 발생하는 문제가 수정되었습니다.
  • 2019년 1월 8일
    • org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 오류를 유발하는 문제가 수정되었습니다.
    • [SPARK-26352]조인 재정렬로 인해 출력 특성의 순서가 변경되어서는 안 됩니다.
    • [SPARK-26366]ReplaceExceptWithFilter는 NULL을 False로 간주해야 합니다.
    • Delta Lake의 안정성이 개선되었습니다.
    • Delta Lake가 사용하도록 설정되었습니다.
    • Azure Data Lake Storage Gen1에 대해 Microsoft Entra ID 자격 증명 통과가 사용하도록 설정된 경우 Azure Data Lake Storage Gen2 액세스가 실패하는 문제가 수정되었습니다.
    • Databricks IO 캐시가 이제 모든 가격 책정 계층의 Ls 시리즈 작업자 인스턴스 형식에 대해 사용하도록 설정됩니다.

Databricks Runtime 5.0(EoS)

Databricks Runtime 5.0(EoS)을 참조하세요.

  • 2019년 6월 18일
    • 고차 함수 사용에 영향을 미치는 버그가 수정되었습니다.
  • 2019년 5월 7일
    • Delta 로그 체크섬 파일을 로드할 때 경합 상태가 수정되었습니다.
    • "삽입 + 덮어쓰기"를 순수한 "추가" 작업으로 식별하지 않도록 Delta 충돌 검색 논리가 수정되었습니다.
    • [SPARK-27494][SS] Null 키/값이 Kafka 원본 v2에서 작동하지 않습니다.
    • [SPARK-27454][SPARK-27454][ML][SQL] 일부 잘못된 이미지가 발생하면 Spark 이미지 데이터 원본이 실패합니다.
    • [SPARK-27160][SQL] orc 필터를 빌드하는 경우 DecimalType 수정
      • [SPARK-27338][CORE] UnsafeExternalSorter와 TaskMemoryManager 간 교착 상태 수정
  • 2019년 3월 26일
    • 플랫폼 종속 오프셋을 전체 단계 생성 코드에 리터럴로 포함하지 않도록 합니다.
    • 특정 PythonUDF에 영향을 미치는 버그가 수정되었습니다.
  • 2019년 3월 12일
    • [SPARK-26864][SQL] python udf가 왼쪽 세미 조인 조건으로 사용될 때 쿼리가 잘못된 결과를 반환할 수 있습니다.
  • 2019년 2월 26일
    • JDBC/ODBC 서버에 영향을 주는 버그가 수정되었습니다.
    • HadoopRDD를 빌드할 때 숨김 파일을 제외합니다.
  • 2019년 2월 12일
    • SQL 캐시의 캐시된 RDD와 실제 계획 간의 불일치로 인해 잘못된 결과가 발생하는 문제가 수정되었습니다.
    • [SPARK-26706][SQL] ByteType에 대해 illegalNumericPrecedence가 수정되었습니다.
    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery가 빈 레코드를 올바르게 처리하지 않습니다.
    • Window 연산자에 대한 제약 조건 유추가 수정되었습니다.
    • 암호화가 사용하도록 설정된 큰 RPC 오류 메시지를 보낼 때 Spark 저수준 네트워크 프로토콜이 손상될 수 있는 문제가 수정되었습니다(spark.network.crypto.enabled가 true로 설정된 경우).
  • 2019년 1월 30일
    • 특정 경우에 UDT가 있는 df.rdd.count()가 오답을 반환할 수 있는 문제가 수정되었습니다.
    • [SPARK-26267]Kafka에서 잘못된 오프셋을 검색하면 다시 시도합니다.
    • 스트리밍 쿼리에서 여러 파일 스트림 원본에 영향을 주는 버그가 수정되었습니다.
    • 캐시된 관계에 기울이기 조인 힌트를 넣을 때 발생하는 StackOverflowError가 수정되었습니다.
    • SQL 캐시의 캐시된 RDD와 실제 계획 간의 불일치로 인해 잘못된 결과가 발생하는 문제가 수정되었습니다.
  • 2019년 1월 8일
    • org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 오류를 유발하는 문제가 수정되었습니다.
    • [SPARK-26352]조인 재정렬로 인해 출력 특성의 순서가 변경되어서는 안 됩니다.
    • [SPARK-26366]ReplaceExceptWithFilter는 NULL을 False로 간주해야 합니다.
    • Delta Lake의 안정성이 개선되었습니다.
    • Delta Lake가 사용하도록 설정되었습니다.
    • Databricks IO 캐시가 이제 모든 가격 책정 계층의 Ls 시리즈 작업자 인스턴스 형식에 대해 사용하도록 설정됩니다.
  • 2018년 12월 18일
    • [SPARK-26293]하위 쿼리에 Python UDF가 있는 경우 예외를 캐스트합니다.
    • 조인 및 제한을 사용하는 특정 쿼리에 영향을 미치는 문제가 수정되었습니다.
    • Spark UI의 RDD 이름에서 수정된 자격 증명
  • 2018년 12월 6일
    • 정렬 기준 키의 선행 부분으로 group-by 키와 함께 orderBy 다음에 바로 groupBy를 사용할 때 잘못된 쿼리 결과가 발생하는 문제가 수정되었습니다.
    • Spark용 Snowflake 커넥터를 2.4.9.2-spark_2.4_pre_release에서 2.4.10으로 업그레이드했습니다.
    • spark.sql.files.ignoreCorruptFiles 또는 spark.sql.files.ignoreMissingFiles 플래그가 사용하도록 설정된 경우 한 번 이상 다시 시도한 후에만 손상된 파일을 무시합니다.
    • 특정 자체 통합 쿼리에 영향을 주는 문제가 수정되었습니다.
    • 세션이 취소될 때 간헐적으로 누출되는 Thrift 서버의 버그가 수정되었습니다.
    • [SPARK-26307]Hive SerDe를 사용하여 분할된 테이블을 삽입할 때 CTAS가 수정되었습니다.
    • [SPARK-26147]조인의 한 쪽에서만 열을 사용하는 경우에도 조인 조건의 Python UDF가 실패합니다.
    • [SPARK-26211]이진 파일용 InSet, null이 있는 구조체 및 배열이 수정되었습니다.
    • [SPARK-26181]ColumnStatsMaphasMinMaxStats 메서드가 올바르지 않습니다.
    • 인터넷에 액세스할 수 없는 환경에서 Python Wheels 설치에 영향을 미치는 문제가 수정되었습니다.
  • 2018년 11월 20일
    • 스트리밍 쿼리를 취소한 후 Notebook을 사용할 수 없는 문제가 수정되었습니다.
    • 창 함수를 사용하는 특정 쿼리에 영향을 미치는 문제가 수정되었습니다.
    • 여러 스키마 변경이 있는 Delta의 스트림에 영향을 주는 문제가 수정되었습니다.
    • 왼쪽 세미/안티 조인을 사용하여 특정 집계 쿼리에 영향을 주는 문제를 해결했습니다.

Databricks Runtime 4.3(EoS)

Databricks Runtime 4.3(EoS)을 참조하세요.

  • 2019년 4월 9일

    • [SPARK-26665][CORE] BlockTransferService.fetchBlockSync가 영원히 중단될 수 있는 버그가 수정되었습니다.
    • [SPARK-24669][SQL] DROP DATABASE CASCADE의 경우 테이블을 무효화합니다.
  • 2019년 3월 12일

    • 코드 생성에 영향을 미치는 버그가 수정되었습니다.
    • Delta에 영향을 미치는 버그가 수정되었습니다.
  • 2019년 2월 26일

    • JDBC/ODBC 서버에 영향을 주는 버그가 수정되었습니다.
  • 2019년 2월 12일

    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery가 빈 레코드를 올바르게 처리하지 않습니다.
    • HadoopRDD 빌드 시 숨김 파일이 제외됩니다.
    • 값이 비어 있는 경우 IN 조건자의 Parquet 필터 변환이 수정되었습니다.
    • 암호화가 사용하도록 설정된 큰 RPC 오류 메시지를 보낼 때 Spark 저수준 네트워크 프로토콜이 손상될 수 있는 문제가 수정되었습니다(spark.network.crypto.enabled가 true로 설정된 경우).
  • 2019년 1월 30일

    • 특정 경우에 UDT가 있는 df.rdd.count()가 오답을 반환할 수 있는 문제가 수정되었습니다.
    • SQL 캐시의 캐시된 RDD와 실제 계획 간의 불일치로 인해 잘못된 결과가 발생하는 문제가 수정되었습니다.
  • 2019년 1월 8일

    • org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 오류를 유발하는 문제가 수정되었습니다.
    • Spark UI의 RDD 이름에서 수정된 자격 증명
    • [SPARK-26352]조인 재정렬로 인해 출력 특성의 순서가 변경되어서는 안 됩니다.
    • [SPARK-26366]ReplaceExceptWithFilter는 NULL을 False로 간주해야 합니다.
    • Delta Lake가 사용하도록 설정되었습니다.
    • Databricks IO 캐시가 이제 모든 가격 책정 계층의 Ls 시리즈 작업자 인스턴스 형식에 대해 사용하도록 설정됩니다.
  • 2018년 12월 18일

    • [SPARK-25002]Avro: 출력 레코드 네임스페이스가 수정되었습니다.
    • 조인 및 제한을 사용하는 특정 쿼리에 영향을 미치는 문제가 수정되었습니다.
    • [SPARK-26307]Hive SerDe를 사용하여 분할된 테이블을 삽입할 때 CTAS가 수정되었습니다.
    • spark.sql.files.ignoreCorruptFiles 또는 spark.sql.files.ignoreMissingFiles 플래그가 사용하도록 설정된 경우 한 번 이상 다시 시도한 후에만 손상된 파일을 무시합니다.
    • [SPARK-26181]ColumnStatsMaphasMinMaxStats 메서드가 올바르지 않습니다.
    • 인터넷에 액세스할 수 없는 환경에서 Python Wheels 설치에 영향을 미치는 문제가 수정되었습니다.
    • 쿼리 분석기의 성능 문제가 수정되었습니다.
    • DataFrame 작업이 "연결 거부됨" 오류와 함께 실패하도록 하는 PySpark 문제가 수정되었습니다.
    • 특정 자체 통합 쿼리에 영향을 주는 문제가 수정되었습니다.
  • 2018년 11월 20일

    • [SPARK-17916][SPARK-25241]nullValue가 설정된 경우 빈 문자열이 null로 구문 분석되는 문제가 수정되었습니다.
    • [SPARK-25387]잘못된 CSV 입력으로 인한 NPE가 수정되었습니다.
    • 왼쪽 세미/안티 조인을 사용하여 특정 집계 쿼리에 영향을 주는 문제를 해결했습니다.
  • 2018년 11월 6일

    • [SPARK-25741]긴 URL이 웹 UI에서 제대로 렌더링되지 않습니다.
    • [SPARK-25714]최적화 규칙 BooleanSimplification에서 Null 처리가 수정되었습니다.
    • Synapse Analytics 커넥터의 임시 개체 정리에 영향을 주는 문제가 수정되었습니다.
    • [SPARK-25816]중첩 추출기의 특성 확인이 수정되었습니다.
  • 2018년 10월 16일

    • Delta 테이블에서 SHOW CREATE TABLE 실행의 출력에 영향을 주는 버그가 수정되었습니다.
    • Union 작업에 영향을 주는 버그가 수정되었습니다.
  • 2018년 9월 25일

    • [SPARK-25368][SQL] 잘못된 제약 조건 유추가 잘못된 결과를 반환합니다.
    • [SPARK-25402][SQL] BooleanSimplification에서 Null 처리입니다.
    • Avro 데이터 원본에서 NotSerializableException이 수정되었습니다.
  • 2018년 9월 11일

    • [SPARK-25214][SS] Kafka v2 원본이 failOnDataLoss=false일 때 중복된 레코드를 반환할 수 있는 문제가 수정되었습니다.
    • [SPARK-24987][SS] articlePartition에 대한 새 오프셋이 없을 때 Kafka 소비자 누수가 수정되었습니다.
    • 필터 축소는 null 값을 올바르게 처리해야 합니다.
    • 실행 엔진의 안정성이 개선되었습니다.
  • 2018년 8월 28일

    • 조건이 null로 평가되는 행을 잘못 삭제하는 Delta Lake 삭제 명령의 버그가 수정되었습니다.
    • [SPARK-25142]Python 작업자가 _load_from_socket에서 소켓을 열 수 없을 때 오류 메시지가 추가되었습니다.
  • 2018년 8월 23일

    • [SPARK-23935]mapEntry에서 org.codehaus.commons.compiler.CompileException이 throw됩니다.
    • Parquet 판독기에서 null 허용 맵 문제가 수정되었습니다.
    • [SPARK-25051][SQL] FixNullability가 AnalysisBarrier에서 중지되어서는 안 됩니다.
    • [SPARK-25081]스필이 메모리 할당에 실패할 때 ShuffleExternalSorter가 해제된 메모리 페이지에 액세스할 수 있는 버그가 수정되었습니다.
    • 일시적인 읽기 실패를 유발할 수 있는 Databricks Delta와 Pyspark 간의 상호 작용을 수정했습니다.
    • [SPARK-25084]여러 열의 "배포 기준"(대괄호로 묶음)은 codegen 문제로 이어질 수 있습니다.
    • [SPARK-25096]캐스트가 강제 null 허용이면 null 허용 여부를 풉니다.
    • Delta Lake Optimize 명령에서 사용하는 기본 스레드 수를 줄여 메모리 오버헤드를 줄이고 데이터를 더 빠르게 커밋합니다.
    • [SPARK-25114]두 단어 간의 빼기를 Integer.MAX_VALUE로 나눌 수 있는 경우 RecordBinaryComparator가 수정되었습니다.
    • 명령이 부분적으로 성공할 때 비밀 관리자 수정이 수정되었습니다.

Databricks Runtime 4.2(EoS)

Databricks Runtime 4.2(EoS)을 참조하세요.

  • 2019년 2월 26일

    • JDBC/ODBC 서버에 영향을 주는 버그가 수정되었습니다.
  • 2019년 2월 12일

    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery가 빈 레코드를 올바르게 처리하지 않습니다.
    • HadoopRDD 빌드 시 숨김 파일이 제외됩니다.
    • 값이 비어 있는 경우 IN 조건자의 Parquet 필터 변환이 수정되었습니다.
    • 암호화가 사용하도록 설정된 큰 RPC 오류 메시지를 보낼 때 Spark 저수준 네트워크 프로토콜이 손상될 수 있는 문제가 수정되었습니다(spark.network.crypto.enabled가 true로 설정된 경우).
  • 2019년 1월 30일

    • 특정 경우에 UDT가 있는 df.rdd.count()가 오답을 반환할 수 있는 문제가 수정되었습니다.
  • 2019년 1월 8일

    • org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 오류를 유발하는 문제가 수정되었습니다.
    • Spark UI의 RDD 이름에서 수정된 자격 증명
    • [SPARK-26352]조인 재정렬로 인해 출력 특성의 순서가 변경되어서는 안 됩니다.
    • [SPARK-26366]ReplaceExceptWithFilter는 NULL을 False로 간주해야 합니다.
    • Delta Lake가 사용하도록 설정되었습니다.
    • Databricks IO 캐시가 이제 모든 가격 책정 계층의 Ls 시리즈 작업자 인스턴스 형식에 대해 사용하도록 설정됩니다.
  • 2018년 12월 18일

    • [SPARK-25002]Avro: 출력 레코드 네임스페이스가 수정되었습니다.
    • 조인 및 제한을 사용하는 특정 쿼리에 영향을 미치는 문제가 수정되었습니다.
    • [SPARK-26307]Hive SerDe를 사용하여 분할된 테이블을 삽입할 때 CTAS가 수정되었습니다.
    • spark.sql.files.ignoreCorruptFiles 또는 spark.sql.files.ignoreMissingFiles 플래그가 사용하도록 설정된 경우 한 번 이상 다시 시도한 후에만 손상된 파일을 무시합니다.
    • [SPARK-26181]ColumnStatsMaphasMinMaxStats 메서드가 올바르지 않습니다.
    • 인터넷에 액세스할 수 없는 환경에서 Python Wheels 설치에 영향을 미치는 문제가 수정되었습니다.
    • 쿼리 분석기의 성능 문제가 수정되었습니다.
    • DataFrame 작업이 "연결 거부됨" 오류와 함께 실패하도록 하는 PySpark 문제가 수정되었습니다.
    • 특정 자체 통합 쿼리에 영향을 주는 문제가 수정되었습니다.
  • 2018년 11월 20일

    • [SPARK-17916][SPARK-25241]nullValue가 설정된 경우 빈 문자열이 null로 구문 분석되는 문제가 수정되었습니다.
    • 왼쪽 세미/안티 조인을 사용하여 특정 집계 쿼리에 영향을 주는 문제를 해결했습니다.
  • 2018년 11월 6일

    • [SPARK-25741]긴 URL이 웹 UI에서 제대로 렌더링되지 않습니다.
    • [SPARK-25714]최적화 규칙 BooleanSimplification에서 Null 처리가 수정되었습니다.
  • 2018년 10월 16일

    • Delta 테이블에서 SHOW CREATE TABLE 실행의 출력에 영향을 주는 버그가 수정되었습니다.
    • Union 작업에 영향을 주는 버그가 수정되었습니다.
  • 2018년 9월 25일

    • [SPARK-25368][SQL] 잘못된 제약 조건 유추가 잘못된 결과를 반환합니다.
    • [SPARK-25402][SQL] BooleanSimplification에서 Null 처리입니다.
    • Avro 데이터 원본에서 NotSerializableException이 수정되었습니다.
  • 2018년 9월 11일

    • [SPARK-25214][SS] Kafka v2 원본이 failOnDataLoss=false일 때 중복된 레코드를 반환할 수 있는 문제가 수정되었습니다.
    • [SPARK-24987][SS] articlePartition에 대한 새 오프셋이 없을 때 Kafka 소비자 누수가 수정되었습니다.
    • 필터 축소는 null 값을 올바르게 처리해야 합니다.
  • 2018년 8월 28일

    • 조건이 null로 평가되는 행을 잘못 삭제하는 Delta Lake 삭제 명령의 버그가 수정되었습니다.
  • 2018년 8월 23일

    • Delta 스냅샷의 NoClassDefError가 수정되었습니다.
    • [SPARK-23935]mapEntry에서 org.codehaus.commons.compiler.CompileException이 throw됩니다.
    • [SPARK-24957][SQL] 10진수 뒤에 집계가 있는 평균이 잘못된 결과를 반환합니다. AVERAGE의 잘못된 결과가 반환될 수 있습니다. 나누기 결과가 캐스팅된 형식과 동일한 경우 Average 연산자에 추가된 CAST는 무시됩니다.
    • [SPARK-25081]스필이 메모리 할당에 실패할 때 ShuffleExternalSorter가 해제된 메모리 페이지에 액세스할 수 있는 버그가 수정되었습니다.
    • 일시적인 읽기 실패를 유발할 수 있는 Databricks Delta와 Pyspark 간의 상호 작용을 수정했습니다.
    • [SPARK-25114]두 단어 간의 빼기를 Integer.MAX_VALUE로 나눌 수 있는 경우 RecordBinaryComparator가 수정되었습니다.
    • [SPARK-25084]여러 열의 "배포 기준"(대괄호로 묶음)은 codegen 문제로 이어질 수 있습니다.
    • [SPARK-24934][SQL] 메모리 내 파티션 정리에 대해 상한/하한 범위에서 지원되는 형식을 명시적으로 허용합니다. 복잡한 데이터 형식이 캐시된 데이터에 대한 쿼리 필터에 사용되면 Spark는 항상 빈 결과 집합을 반환합니다. 메모리 내 통계 기반 정리는 복잡한 형식의 상한/하한에 null이 설정되어 있기 때문에 잘못된 결과를 생성합니다. 복잡한 형식에 메모리 내 통계 기반 정리를 사용하지 않도록 수정되었습니다.
    • 명령이 부분적으로 성공할 때 비밀 관리자 수정이 수정되었습니다.
    • Parquet 판독기에서 null 허용 맵 문제가 수정되었습니다.
  • 2018년 8월 2일

    • Python에 writeStream.table API가 추가되었습니다.
    • Delta 검사점에 영향을 미치는 문제가 수정되었습니다.
    • [SPARK-24867][SQL] DataFrameWriter에 AnalysisBarrier가 추가되었습니다. DataFrameWriter를 사용하여 UDF로 DataFrame을 작성할 때 SQL 캐시가 사용되지 않습니다. 이는 모든 Analyzer 규칙이 idempotent가 아니기 때문에 AnalysisBarrier에서 변경한 사항으로 인해 발생하는 회귀입니다.
    • mergeInto 명령이 잘못된 결과를 생성할 수 있는 문제가 수정되었습니다.
    • Azure Data Lake Storage Gen1에 액세스할 때 안정성이 개선되었습니다.
    • [SPARK-24809]실행기에서 LongHashedRelation을 직렬화하면 데이터 오류가 발생할 수 있습니다.
    • [SPARK-24878][SQL] null을 포함하는 기본 형식의 배열 형식에 대한 역함수가 수정되었습니다.
  • 2018년 7월 11일

    • 경우에 따라 정밀도가 다른 10진수 열에 대한 집계가 잘못된 결과를 반환하게 하는 쿼리 실행 버그가 수정되었습니다.
    • 그룹화 집합과 같은 고급 집계 작업 중에 throw되는 NullPointerException 버그가 수정되었습니다.

Databricks Runtime 4.1 ML(EoS)

Databricks Runtime 4.1 ML(EoS)을 참조하세요.

  • 2018년 7월 31일
    • ML Runtime 4.1에 Azure Synapse Analytics가 추가되었습니다.
    • 술어에 사용된 파티션 열의 이름이 테이블 스키마의 해당 열의 대/소문자와 다를 때 잘못된 쿼리 결과를 유발할 수 있는 버그가 수정되었습니다.
    • Spark SQL 실행 엔진에 영향을 주는 버그가 수정되었습니다.
    • 코드 생성에 영향을 미치는 버그가 수정되었습니다.
    • Delta Lake에 영향을 미치는 버그(java.lang.NoClassDefFoundError)가 수정되었습니다.
    • Delta Lake에서 오류 처리가 개선되었습니다.
    • 32자 이상의 문자열 열에 대해 잘못된 데이터 건너뛰기 통계가 수집되는 버그가 수정되었습니다.

Databricks Runtime 4.1(EoS)

Databricks Runtime 4.1(EoS)을 참조하세요.

  • 2019년 1월 8일

    • [SPARK-26366]ReplaceExceptWithFilter는 NULL을 False로 간주해야 합니다.
    • Delta Lake가 사용하도록 설정되었습니다.
  • 2018년 12월 18일

    • [SPARK-25002]Avro: 출력 레코드 네임스페이스가 수정되었습니다.
    • 조인 및 제한을 사용하는 특정 쿼리에 영향을 미치는 문제가 수정되었습니다.
    • [SPARK-26307]Hive SerDe를 사용하여 분할된 테이블을 삽입할 때 CTAS가 수정되었습니다.
    • spark.sql.files.ignoreCorruptFiles 또는 spark.sql.files.ignoreMissingFiles 플래그가 사용하도록 설정된 경우 한 번 이상 다시 시도한 후에만 손상된 파일을 무시합니다.
    • 인터넷에 액세스할 수 없는 환경에서 Python Wheels 설치에 영향을 미치는 문제가 수정되었습니다.
    • DataFrame 작업이 "연결 거부됨" 오류와 함께 실패하도록 하는 PySpark 문제가 수정되었습니다.
    • 특정 자체 통합 쿼리에 영향을 주는 문제가 수정되었습니다.
  • 2018년 11월 20일

    • [SPARK-17916][SPARK-25241]nullValue가 설정된 경우 빈 문자열이 null로 구문 분석되는 문제가 수정되었습니다.
    • 왼쪽 세미/안티 조인을 사용하여 특정 집계 쿼리에 영향을 주는 문제를 해결했습니다.
  • 2018년 11월 6일

    • [SPARK-25741]긴 URL이 웹 UI에서 제대로 렌더링되지 않습니다.
    • [SPARK-25714]최적화 규칙 BooleanSimplification에서 Null 처리가 수정되었습니다.
  • 2018년 10월 16일

    • Delta 테이블에서 SHOW CREATE TABLE 실행의 출력에 영향을 주는 버그가 수정되었습니다.
    • Union 작업에 영향을 주는 버그가 수정되었습니다.
  • 2018년 9월 25일

    • [SPARK-25368][SQL] 잘못된 제약 조건 유추가 잘못된 결과를 반환합니다.
    • [SPARK-25402][SQL] BooleanSimplification에서 Null 처리입니다.
    • Avro 데이터 원본에서 NotSerializableException이 수정되었습니다.
  • 2018년 9월 11일

    • [SPARK-25214][SS] Kafka v2 원본이 failOnDataLoss=false일 때 중복된 레코드를 반환할 수 있는 문제가 수정되었습니다.
    • [SPARK-24987][SS] articlePartition에 대한 새 오프셋이 없을 때 Kafka 소비자 누수가 수정되었습니다.
    • 필터 축소는 null 값을 올바르게 처리해야 합니다.
  • 2018년 8월 28일

    • 조건이 null로 평가되는 행을 잘못 삭제하는 Delta Lake 삭제 명령의 버그가 수정되었습니다.
    • [SPARK-25084]여러 열의 "배포 기준"(대괄호로 묶음)은 codegen 문제로 이어질 수 있습니다.
    • [SPARK-25114]두 단어 간의 빼기를 Integer.MAX_VALUE로 나눌 수 있는 경우 RecordBinaryComparator가 수정되었습니다.
  • 2018년 8월 23일

    • Delta 스냅샷에 대한 NoClassDefError가 수정되었습니다.
    • [SPARK-24957][SQL] 10진수 뒤에 집계가 있는 평균이 잘못된 결과를 반환합니다. AVERAGE의 잘못된 결과가 반환될 수 있습니다. 나누기 결과가 캐스팅된 형식과 동일한 경우 Average 연산자에 추가된 CAST는 무시됩니다.
    • Parquet 판독기에서 null 허용 맵 문제가 수정되었습니다.
    • [SPARK-24934][SQL] 메모리 내 파티션 정리에 대해 상한/하한 범위에서 지원되는 형식을 명시적으로 허용합니다. 복잡한 데이터 형식이 캐시된 데이터에 대한 쿼리 필터에 사용되면 Spark는 항상 빈 결과 집합을 반환합니다. 메모리 내 통계 기반 정리는 복잡한 형식의 상한/하한에 null이 설정되어 있기 때문에 잘못된 결과를 생성합니다. 복잡한 형식에 메모리 내 통계 기반 정리를 사용하지 않도록 수정되었습니다.
    • [SPARK-25081]스필이 메모리 할당에 실패할 때 ShuffleExternalSorter가 해제된 메모리 페이지에 액세스할 수 있는 버그가 수정되었습니다.
    • 일시적인 읽기 실패를 유발할 수 있는 Databricks Delta와 Pyspark 간의 상호 작용을 수정했습니다.
    • 명령이 부분적으로 성공할 때 수정된 비밀 관리자 수정이 수정되었습니다.
  • 2018년 8월 2일

    • [SPARK-24613][SQL] UDF가 있는 캐시를 후속 종속 캐시와 일치시킬 수 없습니다. 계획이 다시 분석되는 것을 피하기 위해 CacheManager에서 실행 계획 컴파일을 위해 AnalysisBarrier로 논리적 계획을 래핑합니다. 이는 또한 Spark 2.3의 회귀입니다.
    • DateType 데이터 쓰기를 위한 시간대 변환에 영향을 미치는 Synapse Analytics 커넥터 문제가 수정되었습니다.
    • Delta 검사점에 영향을 미치는 문제가 수정되었습니다.
    • mergeInto 명령이 잘못된 결과를 생성할 수 있는 문제가 수정되었습니다.
    • [SPARK-24867][SQL] DataFrameWriter에 AnalysisBarrier가 추가되었습니다. DataFrameWriter를 사용하여 UDF로 DataFrame을 작성할 때 SQL 캐시가 사용되지 않습니다. 이는 모든 Analyzer 규칙이 idempotent가 아니기 때문에 AnalysisBarrier에서 변경한 사항으로 인해 발생하는 회귀입니다.
    • [SPARK-24809]실행기에서 LongHashedRelation을 직렬화하면 데이터 오류가 발생할 수 있습니다.
  • 2018년 7월 11일

    • 경우에 따라 정밀도가 다른 10진수 열에 대한 집계가 잘못된 결과를 반환하게 하는 쿼리 실행 버그가 수정되었습니다.
    • 그룹화 집합과 같은 고급 집계 작업 중에 throw되는 NullPointerException 버그가 수정되었습니다.
  • 2018년 6월 28일

    • 술어에 사용된 파티션 열의 이름이 테이블 스키마의 해당 열의 대/소문자와 다를 때 잘못된 쿼리 결과를 유발할 수 있는 버그가 수정되었습니다.
  • 2018년 6월 7일

    • Spark SQL 실행 엔진에 영향을 주는 버그가 수정되었습니다.
    • 코드 생성에 영향을 미치는 버그가 수정되었습니다.
    • Delta Lake에 영향을 미치는 버그(java.lang.NoClassDefFoundError)가 수정되었습니다.
    • Delta Lake에서 오류 처리가 개선되었습니다.
  • 2018년 5월 17일

    • 32자 이상의 문자열 열에 대해 잘못된 데이터 건너뛰기 통계가 수집되는 버그가 수정되었습니다.

Databricks Runtime 4.0(EoS)

Databricks Runtime 4.0(EoS)을 참조하세요.

  • 2018년 11월 6일

    • [SPARK-25714]최적화 규칙 BooleanSimplification에서 Null 처리가 수정되었습니다.
  • 2018년 10월 16일

    • Union 작업에 영향을 주는 버그가 수정되었습니다.
  • 2018년 9월 25일

    • [SPARK-25368][SQL] 잘못된 제약 조건 유추가 잘못된 결과를 반환합니다.
    • [SPARK-25402][SQL] BooleanSimplification에서 Null 처리입니다.
    • Avro 데이터 원본에서 NotSerializableException이 수정되었습니다.
  • 2018년 9월 11일

    • 필터 축소는 null 값을 올바르게 처리해야 합니다.
  • 2018년 8월 28일

    • 조건이 null로 평가되는 행을 잘못 삭제하는 Delta Lake 삭제 명령의 버그가 수정되었습니다.
  • 2018년 8월 23일

    • Parquet 판독기에서 null 허용 맵 문제가 수정되었습니다.
    • 명령이 부분적으로 성공할 때 수정된 비밀 관리자 수정이 수정되었습니다.
    • 일시적인 읽기 실패를 유발할 수 있는 Databricks Delta와 Pyspark 간의 상호 작용을 수정했습니다.
    • [SPARK-25081]스필이 메모리 할당에 실패할 때 ShuffleExternalSorter가 해제된 메모리 페이지에 액세스할 수 있는 버그가 수정되었습니다.
    • [SPARK-25114]두 단어 간의 빼기를 Integer.MAX_VALUE로 나눌 수 있는 경우 RecordBinaryComparator가 수정되었습니다.
  • 2018년 8월 2일

    • [SPARK-24452]int 추가 또는 다중에서 가능한 오버플로를 방지합니다.
    • [SPARK-24588]스트리밍 조인에는 자식 항목의 HashClusteredPartitioning이 필요합니다.
    • mergeInto 명령이 잘못된 결과를 생성할 수 있는 문제가 수정되었습니다.
    • [SPARK-24867][SQL] DataFrameWriter에 AnalysisBarrier가 추가되었습니다. DataFrameWriter를 사용하여 UDF로 DataFrame을 작성할 때 SQL 캐시가 사용되지 않습니다. 이는 모든 Analyzer 규칙이 idempotent가 아니기 때문에 AnalysisBarrier에서 변경한 사항으로 인해 발생하는 회귀입니다.
    • [SPARK-24809]실행기에서 LongHashedRelation을 직렬화하면 데이터 오류가 발생할 수 있습니다.
  • 2018년 6월 28일

    • 술어에 사용된 파티션 열의 이름이 테이블 스키마의 해당 열의 대/소문자와 다를 때 잘못된 쿼리 결과를 유발할 수 있는 버그가 수정되었습니다.
  • 2018년 6월 7일

    • Spark SQL 실행 엔진에 영향을 주는 버그가 수정되었습니다.
    • Delta Lake에서 오류 처리가 개선되었습니다.
  • 2018년 5월 17일

    • Databricks 비밀 관리에 대한 버그가 수정되었습니다.
    • Azure Data Lake Store에 저장된 데이터 읽기의 안정성이 개선되었습니다.
    • RDD 캐싱에 영향을 주는 버그가 수정되었습니다.
    • Spark SQL에서 Null-safe Equal에 영향을 주는 버그가 수정되었습니다.
  • 2018년 4월 24일

    • Azure Data Lake Store에 대한 액세스 안정성을 개선하기 위해 Azure Data Lake Store SDK가 2.0.11에서 2.2.8로 업그레이드되었습니다.
    • spark.databricks.io.hive.fastwriter.enabledfalse일 때 분할된 Hive 테이블에 덮어쓰기 삽입에 영향을 주는 버그가 수정되었습니다.
    • 작업 serialization에 실패한 문제가 수정되었습니다.
    • Delta Lake 안정성이 개선되었습니다.
  • 2018년 3월 14일

    • Delta Lake에 쓸 때 불필요한 메타데이터 업데이트를 방지합니다.
    • 드문 경우지만 일부 출력 파일이 손실될 수 있는 경합 상태로 인해 발생하는 문제가 수정되었습니다.

Databricks Runtime 3.5 LTS(EoS)

Databricks Runtime 3.5 LTS(EoS)을 참조하세요.

  • 2019년 11월 7일

    • [SPARK-29743][SQL] 샘플은 자식의 needCopyResult가 true인 경우 needCopyResult를 true로 설정해야 합니다.
  • 2019년 10월 8일

    • Simba Apache Spark ODBC 드라이버가 결과를 가져오는 동안 연결 실패 후 다시 연결하고 계속할 수 있도록 서버 쪽이 변경되었습니다(Simba Apache Spark ODBC 드라이버를 버전 2.6.10으로 업데이트해야 함).
  • 2019년 9월 10일

    • [SPARK-28699][SQL] 다시 분할 사례에서 ShuffleExchangeExec에 radix 정렬을 사용하지 않습니다.
  • 2019년 4월 9일

    • [SPARK-26665][CORE] BlockTransferService.fetchBlockSync가 영원히 중단될 수 있는 버그가 수정되었습니다.
  • 2019년 2월 12일

    • 암호화가 사용하도록 설정된 큰 RPC 오류 메시지를 보낼 때 Spark 저수준 네트워크 프로토콜이 손상될 수 있는 문제가 수정되었습니다(spark.network.crypto.enabled가 true로 설정된 경우).
  • 2019년 1월 30일

    • 특정 경우에 UDT가 있는 df.rdd.count()가 오답을 반환할 수 있는 문제가 수정되었습니다.
  • 2018년 12월 18일

    • spark.sql.files.ignoreCorruptFiles 또는 spark.sql.files.ignoreMissingFiles 플래그가 사용하도록 설정된 경우 한 번 이상 다시 시도한 후에만 손상된 파일을 무시합니다.
    • 특정 자체 통합 쿼리에 영향을 주는 문제가 수정되었습니다.
  • 2018년 11월 20일

    • [SPARK-25816]중첩 추출기의 특성 확인이 수정되었습니다.
  • 2018년 11월 6일

    • [SPARK-25714]최적화 규칙 BooleanSimplification에서 Null 처리가 수정되었습니다.
  • 2018년 10월 16일

    • Union 작업에 영향을 주는 버그가 수정되었습니다.
  • 2018년 9월 25일

    • [SPARK-25402][SQL] BooleanSimplification에서 Null 처리입니다.
    • Avro 데이터 원본에서 NotSerializableException이 수정되었습니다.
  • 2018년 9월 11일

    • 필터 축소는 null 값을 올바르게 처리해야 합니다.
  • 2018년 8월 28일

    • 조건이 null로 평가되는 행을 잘못 삭제하는 Delta Lake 삭제 명령의 버그가 수정되었습니다.
    • [SPARK-25114]두 단어 간의 빼기를 Integer.MAX_VALUE로 나눌 수 있는 경우 RecordBinaryComparator가 수정되었습니다.
  • 2018년 8월 23일

    • [SPARK-24809]실행기에서 LongHashedRelation을 직렬화하면 데이터 오류가 발생할 수 있습니다.
    • Parquet 판독기에서 null 허용 맵 문제가 수정되었습니다.
    • [SPARK-25081]스필이 메모리 할당에 실패할 때 ShuffleExternalSorter가 해제된 메모리 페이지에 액세스할 수 있는 버그가 수정되었습니다.
    • 일시적인 읽기 실패를 유발할 수 있는 Databricks Delta와 Pyspark 간의 상호 작용을 수정했습니다.
  • 2018년 6월 28일

    • 술어에 사용된 파티션 열의 이름이 테이블 스키마의 해당 열의 대/소문자와 다를 때 잘못된 쿼리 결과를 유발할 수 있는 버그가 수정되었습니다.
  • 2018년 6월 28일

    • 술어에 사용된 파티션 열의 이름이 테이블 스키마의 해당 열의 대/소문자와 다를 때 잘못된 쿼리 결과를 유발할 수 있는 버그가 수정되었습니다.
  • 2018년 6월 7일

    • Spark SQL 실행 엔진에 영향을 주는 버그가 수정되었습니다.
    • Delta Lake에서 오류 처리가 개선되었습니다.
  • 2018년 5월 17일

    • Azure Data Lake Store에 저장된 데이터 읽기의 안정성이 개선되었습니다.
    • RDD 캐싱에 영향을 주는 버그가 수정되었습니다.
    • Spark SQL에서 Null-safe Equal에 영향을 주는 버그가 수정되었습니다.
    • 스트리밍 쿼리의 특정 집계에 영향을 미치는 버그가 수정되었습니다.
  • 2018년 4월 24일

    • Azure Data Lake Store에 대한 액세스 안정성을 개선하기 위해 Azure Data Lake Store SDK가 2.0.11에서 2.2.8로 업그레이드되었습니다.
    • spark.databricks.io.hive.fastwriter.enabledfalse일 때 분할된 Hive 테이블에 덮어쓰기 삽입에 영향을 주는 버그가 수정되었습니다.
    • 작업 serialization에 실패한 문제가 수정되었습니다.
  • 2018년 3월 9일

    • 드문 경우지만 일부 출력 파일이 손실될 수 있는 경합 상태로 인해 발생하는 문제가 수정되었습니다.
  • 2018년 3월 1일

    • 중지하는 데 오랜 시간이 걸릴 수 있는 스트림 처리 효율성이 개선되었습니다.
    • Python 자동 완성에 영향을 주는 문제가 수정되었습니다.
    • Ubuntu 보안 패치를 적용했습니다.
    • Python UDF 및 창 함수를 사용하는 특정 쿼리에 영향을 미치는 문제가 수정되었습니다.
    • 테이블 액세스 제어가 사용하도록 설정된 클러스터에서 UDF 사용에 영향을 미치는 문제가 수정되었습니다.
  • 2018년 1월 29일

    • Azure Blob Storage에 저장된 테이블 조작에 영향을 주는 문제가 수정되었습니다.
    • 빈 DataFrame에서 dropDuplicates 후 집계가 수정되었습니다.

Databricks Runtime 3.4(EoS)

Databricks Runtime 3.4(EoS)을 참조하세요.

  • 2018년 6월 7일

    • Spark SQL 실행 엔진에 영향을 주는 버그가 수정되었습니다.
    • Delta Lake에서 오류 처리가 개선되었습니다.
  • 2018년 5월 17일

    • Azure Data Lake Store에 저장된 데이터 읽기의 안정성이 개선되었습니다.
    • RDD 캐싱에 영향을 주는 버그가 수정되었습니다.
    • Spark SQL에서 Null-safe Equal에 영향을 주는 버그가 수정되었습니다.
  • 2018년 4월 24일

    • spark.databricks.io.hive.fastwriter.enabledfalse일 때 분할된 Hive 테이블에 덮어쓰기 삽입에 영향을 주는 버그가 수정되었습니다.
  • 2018년 3월 9일

    • 드문 경우지만 일부 출력 파일이 손실될 수 있는 경합 상태로 인해 발생하는 문제가 수정되었습니다.
  • 2017년 12월 13일

    • Scala의 UDF에 영향을 주는 문제가 수정되었습니다.
    • DBFS가 아닌 경로에 저장된 데이터 원본 테이블에서 데이터 건너뛰기 인덱스 사용에 영향을 주는 문제가 수정되었습니다.
  • 2017년 12월 7일

    • 순서 섞기 안정성이 개선되었습니다.

지원되지 않는 Databricks Runtime 릴리스

원본 릴리스 정보를 보려면 부제목 아래의 링크를 따릅니다.