Programming

[용어정리] Encoding, UTF, x-windows-949

bisi 2021. 3. 8. 12:24

Encoding

  • Encoding : 코드와, 암호화를 의미. 컴퓨터에서 인코딩은 사람의 언어(문자 집합)에서 컴퓨터 언어(0,1)로 변환하는 과정을 통틀어 의미 
  • Character Set : 표현할 문자(a,b,c), 특수 문자를 정의하고 순서를 지정한 문자 집합
  • Coded Character set : 문자집합을 행렬의 코드형태로 표기한 것.
    • ex) '가' > 10001으로 표기 가능
  • CES (Character encoding scheme) : 문자집합을 컴퓨터에 저장하기 위해 Byte형태로 표현한 것,
    • ex) ASCII(American Standard Code for Information Interchange)
  • ASCII: 0x00 ~ 0x7F 총 127개의 문자와 특수문자를 정의하고 영어만 가능하기 때문에 유럽어는 불가능한 타입인데 이 후 확장 ASCII(extended ASCII)의 등장으로 0x80 ~ 0xFF 127개를 추가하로 정의하여 프랑스어, 독일어 등 유럽어로 표현가능하게 됨.
    • 하지만 여전히 한국, 중국, 일본 등 아시아권 언어는 ASCII 코드로 처리가 불가능해짐
  • UNICODE : 모든 언어를 표현할 수 없는 ASCII 코드 문제를 극복하기 위해 모든 문자 집합을 하나로 모아 탄생시킨 것. 현존하는 문자 인코딩 방법들을 모두 유니코드로 대체

 

 

UNICODE

 

유니코드 값

  • 코드포인트(code point)를 사용하는데 보통 U+를 붙여 표시함.
  • 대부분 문자는 U+0000 ~ U+FFFF 범위에 있는 기본 다국어 평면에 속함.

유니코드 종류

  • UCS2, UCS4, UTF(변환 인코딩 형식)인 UTF-7, UTF-8, UTF-16, UTF-32와 같이 다양하게 존재
  • UTF-8 : 인코딩이 가장 많이 사용됨.
  • EUC-KR, KS X1001, KS X 1003 : 표준안의 인코딩 방식
  • CP494 :영문 MS Window 기본 인코딩
  • MS949 : 한글 MS 기본 인코딩
  • x-windows-949 : 확장 완성형 인코딩 방식
  • ko, ko_KR, ko_KR.eucKR : 모든 EUC-KR 인코딩
  • ko_KR.UTF-8 : UTF-8인코딩

 

 

참고 
인코딩 wiki 백과 
인코딩 개념 정리-개발자라면 알아야될 인코딩 정리