유니코드의 인코딩 방식은 UTF-16은 빅엔디안(BE) 모드와 리틀엔디안(LE)모드가 있습니다. 바이트 순서 마크(BOM, Byte Order Mark)는 이 형식을 구분하기 위해서 존재합니다.
빅엔디안과 리틀엔디안은 메모리 저장방식의 차이입니다. AC 00
이라는 값을 메모리에 저장할 때 빅엔디안은 AC 00
으로 저장하고, 리틀엔디안은 00 AC
로 저장합니다.
이런 저장 방식의 차이를 다른 프로그램에게 설명하기 위해서 특정한 값이 필요하고, 유니코드 문서의 첫 번째에 이 값을 삽입하여 주는것을 BOM이라고 합니다.
- 인코딩별 BOM
- UTF-8: EF BB BF
- UTF-16 BE: FE FF
- UTF-16 LE: FF FE
저장된 파일을 Hex Viewer 등으로 hex 값을 확인하면 다음과 같이 BOM 정보가 들어 있는 것을 알 수 있습니다. (각각 '가나다' 가 입력된 파일입니다.)
# UTF-8
00000000: efbb bfea b080 eb82 98eb 8ba4
# UTF-16 LE
00000000: fffe 00ac 98b0 e4b2
BOM으로 인한 문제
UTF-8은 저장 방식의 차이가 없기 때문에 BOM이 없어도 되지만, 메모장 등의 몇몇 프로그램에서는 BOM을 삽입하고 있습니다. 이로 인하여 파일을 읽을 때 첫번째 문자가 깨지는 현상이 발생하게 됩니다. 다른 형식의 OS와 협업하는 경우에는 sublime, notepad++ 등의 프로그램을 이용할 때는 저정할 때 BOM없이 저장하도록 설정하여 주는 것이 좋습니다.
반응형
'개념' 카테고리의 다른 글
[개념] IPv4와 IPv6 (0) | 2019.10.31 |
---|---|
[개념] 머신러닝과 데이터마이닝 (0) | 2019.09.24 |
[개념] 한글 문자 인코딩 (0) | 2019.09.17 |
[개념] NoSQL (0) | 2019.08.08 |
[개념] 메모리 누수(Memory Leak) 현상 (0) | 2019.07.02 |