Encoding
- Encoding : 코드와, 암호화를 의미. 컴퓨터에서 인코딩은 사람의 언어(문자 집합)에서 컴퓨터 언어(0,1)로 변환하는 과정을 통틀어 의미
- Character Set : 표현할 문자(a,b,c), 특수 문자를 정의하고 순서를 지정한 문자 집합
- Coded Character set : 문자집합을 행렬의 코드형태로 표기한 것.
- ex) '가' > 10001으로 표기 가능
- CES (Character encoding scheme) : 문자집합을 컴퓨터에 저장하기 위해 Byte형태로 표현한 것,
- ex) ASCII(American Standard Code for Information Interchange)
- ASCII: 0x00 ~ 0x7F 총 127개의 문자와 특수문자를 정의하고 영어만 가능하기 때문에 유럽어는 불가능한 타입인데 이 후 확장 ASCII(extended ASCII)의 등장으로 0x80 ~ 0xFF 127개를 추가하로 정의하여 프랑스어, 독일어 등 유럽어로 표현가능하게 됨.
- 하지만 여전히 한국, 중국, 일본 등 아시아권 언어는 ASCII 코드로 처리가 불가능해짐
- UNICODE : 모든 언어를 표현할 수 없는 ASCII 코드 문제를 극복하기 위해 모든 문자 집합을 하나로 모아 탄생시킨 것. 현존하는 문자 인코딩 방법들을 모두 유니코드로 대체
UNICODE
유니코드 값
- 코드포인트(code point)를 사용하는데 보통 U+를 붙여 표시함.
- 대부분 문자는 U+0000 ~ U+FFFF 범위에 있는 기본 다국어 평면에 속함.
유니코드 종류
- UCS2, UCS4, UTF(변환 인코딩 형식)인 UTF-7, UTF-8, UTF-16, UTF-32와 같이 다양하게 존재
- UTF-8 : 인코딩이 가장 많이 사용됨.
- EUC-KR, KS X1001, KS X 1003 : 표준안의 인코딩 방식
- CP494 :영문 MS Window 기본 인코딩
- MS949 : 한글 MS 기본 인코딩
- x-windows-949 : 확장 완성형 인코딩 방식
- ko, ko_KR, ko_KR.eucKR : 모든 EUC-KR 인코딩
- ko_KR.UTF-8 : UTF-8인코딩
참고
인코딩 wiki 백과
인코딩 개념 정리-개발자라면 알아야될 인코딩 정리