다음을 통해 공유


문자 보기

문자 집합 표준을 이해하려면 세 가지 다른 문자 보기를 구분할 줄 알아야 합니다.

  • 문자 목록(문자의 요약 목록)
  • 스칼라 값을 가진 "코드 포인트"로서의 문자
  • 인코딩된 데이터로서의 문자

문자 목록(문자의 요약 목록)

문자 목록은 라틴어, 키릴 문자, 중국어, 한국어, 일본어, 히브리어, 아람어 등 다양한 스크립트에서 발견되는 백만 가지 이상의 문자에 대한 요약 목록입니다. 음악 기호 같은 기타 기호도 문자 목록에 포함됩니다.

유니코드 및 GB18030 표준에는 모두 문자 목록이 있습니다. 새로운 문자가 한 표준에 추가되면 다른 표준도 호환성을 유지하기 위해 이러한 문자를 추가합니다.

스칼라 값을 가진 "코드 포인트"로서의 문자

Note참고

이 두 번째 문자 보기는 GB18030이 아닌 유니코드에만 적용됩니다.

문자 목록의 각 문자는 "코드 포인트"에 할당됩니다. 각 코드 포인트는 스칼라 값이라고 하는 특정 숫자 값을 갖습니다. 스칼라 값은 종종 16진수로 표현됩니다.

코드 포인트는 "코드 공간"에 존재합니다. 코드 공간은 스칼라 값의 범위로 구성되어 있으며, 두 평면으로 분할되어 있습니다.

  • 기본 다국어 평면(크기는 64k)

    유니코드에서 이 하부 평면에 있는 값의 16진수 표현은 U+0000에서 U+FFFF의 범위를 갖습니다.

  • 보충 다국어 평면(크기는 64k의 추가 섹션 16개)

    유니코드에서 이 상부 평면에 있는 값의 16진수 표현은 U+10000에서 U+10FFFF의 범위를 갖습니다.

사용 가능한 모든 스칼라 값의 전체 코드 공간 크기는 17 * 64k(1,088,000개의 가능한 값)입니다.

인코딩된 데이터로서의 문자

각 인코딩 양식은 문자 목록의 문자를 인코딩된 데이터로 변환합니다.

GB18030에서 인코딩된 데이터는 문자 목록에서 직접 파생됩니다. 문자 목록과 인코딩된 데이터 중간에 있는 스칼라 값의 개념은 유니코드로만 제한됩니다.

유니코드에서 인코딩된 데이터는 알고리즘을 스칼라 값에 적용하여 파생됩니다.

유니코드는 세 가지 문자 인코딩 형식을 정의합니다.

  • UTF-8
  • UTF-16
  • UTF-32