MySQL에서 문자셋(Character Set)과 Collation의 차이

DB/MySQL 2012. 3. 17. 16:37

문자셋(Character Set)

말 그대로 특정 '문자(좀 더 정확히는 symbol)'가 컴퓨터에 저장될 때 어떠한 '코드'로 인코딩되어 저장될 것인지에 대한 규칙이 정의되어있는 집합을 말함. (A character set is a set of symbols and encodings.)

대표적인 것으로는 ASCII, 한글을 지원하는 EUC-KR, 유니코드 UTF-8, UTF-16 등이 있음.

문자셋은 자신이 처리할 문자 집합이 얼마나 큰가에 따라 하나의 '문자'를 저장하는데 필요한 저장공간의 크기가 달라지게 된다. 또한 항상 모든 문자들을 동일한 크기로 인코딩하는 고정폭 방식의 문자셋이 있는가하면, EUC-KR(1~2바이트)이나 UTF-8(1~3바이트)과 같이 가변폭 방식의 인코딩을 사용하는 문자셋도 있다.

콜레이션(Collation)

이것은 특정 문자셋에 의해 데이터베이스에 저장된 값들을 검색하거나 정렬 등의 작업을 위해 문자들간에 서로 '비교'할때 사용하는 규칙들의 집합이다. (A collation is a set of rules for comparing characters in a character set.) 따라서, 일반적인 Data Type에는 적용되지 않고, CHAR, VARCHAR, TEXT와 같은 데이터 타입을 가지는 칼럼들에 대해서만 적용된다.

주로 대소문자를 구별하는 binary 형식을 사용할 것인지, 대소문자를 구별하지 않는 Case Insensitive 형식을 사용할 것인지로 나누어진다. Case Insensitive 형식을 사용하는 collation들은 모두 collation 이름의 끝에 'ci'라는 문자가 붙어있다.

[참고]

1. 특별히, MySQL에서의 문자셋과 collation 에 대한 문제는 단순히 데이터를 저장하는 공간에 대한 관점만이 아니라, MySQL 서버와 MySQL 서버에게 요청을 하는 클라이언트 사이에 주고받는 상호작용에 대한 관점까지도 포함한다는 것을 꼭 기억할 필요가 있다.

데이터를 저장하는 관점 : MySQL은 Server 레벨, Database 레벨, Table 레벨, Column 레벨까지 총 4개의 레벨을 지원하는 특징을 가지고 있음.

서버와 클라이언트간의 상호작용 관점 : MySQL은 이 관점에서 문자셋과 관련한 총 3개의 서로 다른 타입을 제공한다.

character_set_client : 클라이언트에서 문장이 떠날 때 해당 문장은 어떤 문자셋으로 이루어져있는가의 문제

character_set_connection : 클라이언트에서 넘어온 문장을 서버에서는 어떤 문자셋을 기준으로 해석해야하는가의 문제.

character_set_results : 서버에서 클라이언트로 응답을 넘겨줄때 어떤 문자셋으로 넘겨야하는가의 문제.

따라서, 데이터베이스 레벨에서 euckr 문자셋이 기본값으로 지정되어있는 데이터베이스를 생성한 후 해당 데이터베이스에 데이터를 잘 입력하였는데 이상하게 브라우저로 넘기면 데이터베이스에서 읽어온 문자만 글자가 깨지는 상황이 벌어진다면(브라우저의 인코딩 설정 등은 정상적이라고 가정) 다음과 같이 체크해봐야 한다.

Database 레벨, Table 레벨, Column 레벨에서 원하는 문자셋으로 잘 지정되어있는지를 확인

client, connection, results 에서의 문자셋도 적절하게 지정되어있는지를 확인. (대개 글자가 깨지는 경우라면, 아마도 이쪽이 잘못 지정되어있을 가능성이 높다)

SQL 문장 중에 'SET NAMES euckr [COLLATE collation_name]'을 사용하면 앞에서 살펴본 client, connection, results 3가지에 대한 문자셋을 한꺼번에 지정해줄 수 있음. (서버 실행중에도 변경이 가능. 단, 서버 실행중에 SQL 문장으로 변경하는 것은 영구 변경이 아니라 현재 연결에 한해서만 임시로 변경하는 것임)

임시 변경이 아닌 영구 변경을 하려면, MySQL 서버가 처음 시작할 때 참고하는 my.cnf 환경설정 파일내에 'init_connect=SET NAMES euckr' 이런식으로 지정해두면 됨.

이렇게 영구 변경과 임시 변경 방법을 활용하면 좀 더 다양한 응용이 가능해진다.

서버가 시작하는 단계에서 지정하는 경우 : 대개 환경설정 파일인 my.cnf 파일에서 'init_connect=SET NAMES euckr' 명령어로 지정. 이렇게 했을때는 해당 서버를 사용하는 모든 애플리케이션들에게 이 설정이 기본값으로서의 영향을 미친다.

시작 단계가 아니라 서버가 실행중에 데이터베이스 별로 다른 문자셋을 사용하도록 지정하는 경우 : 일단 클라이언트가 서버로 연결을 한 이후에 곧바로 'SET NAMES euckr' 명령어를 실행시켜서 현재 연결에 대한 연결 관련 문자셋들을 수정해놓고 시작한다. 이렇게 하면, 각각의 데이터베이스별로 서로 다른 연결 관련 문자셋을 지정할 수 있게 됨(!!!)

즉, 동일한 서버내에서 대부분의 애플리케이션은 utf-8 문자셋을 사용하는데 특정 애플리케이션만 euckr 문자셋을 사용하고자 할 경우에 위와 같은 방법을 사용하면 가능.

참고로, PHP에서 사용하는 mysqli 확장에서는 'SET NAMES ...'를 query 메소드로 실행시키는 방법 이외에 'set_charset' 이라는 더 나은 메소드를 통해서 동일한 효과를 얻을 수도 있음.

(질문) PHPMyAdmin에서 새로운 데이터베이스를 생성할 때, 해당 데이터베이스에서 사용할 Default collation 만을 지정하게 되는데... 그렇다면, 해당 데이터베이스이 Default Character Set은 어떻게 되는 것일까?

(대답) 뭐... 당연한 이야기겠지만, Default collation 만을 지정하게 되면 해당 collation이 속해있는 Character Set이 자동으로 그 데이터베이스의 Default Character Set으로 지정됨. 물론, PHPMyAdmin의 GUI 방식을 사용하지 않고, 직접 DDL 문장을 사용하면 하나 하나 별도로 지정해줄 수도 있음. 또한, PHPMyAdmin에서 데이터베이스를 생성할 때, Default collation 조차도 지정하지 않게 되면, 당연히 MySQL의 환경설정 파일인 my.cnf(또는 my.ini)에서 지정되어있는 시스템의 기본적인 Character Set이 적용되게 되며 Collation은 해당 Character Set의 Default collation이 적용되게 됨.

출처 - http://blog.naver.com/kumimo?Redirect=Log&logNo=80090609083

문자셋 변경

ALTER DATABASE `db` CHARACTER SET utf8 COLLATE 'utf8_general_ci';

'DB > MySQL' 카테고리의 다른 글

MySQL PASSWORD() 함수를 자바로 구현하기 (0)	2012.03.17
mysql password 해쉬값 크랙 및 보안책 (0)	2012.03.17
mysql 주석 (0)	2012.03.17
mysql primary key, foreign key 생성 및 수정 (0)	2012.03.17
mysql root 패스워드를 변경 (0)	2012.03.16