유니코드의 인코딩 방식은 UTF-16은 빅엔디안(BE) 모드와 리틀엔디안(LE)모드가 있습니다. 바이트 순서 마크(BOM, Byte Order Mark)는 이 형식을 구분하기 위해서 존재합니다.

빅엔디안과 리틀엔디안은 메모리 저장방식의 차이입니다. AC 00이라는 값을 메모리에 저장할 때 빅엔디안은 AC 00으로 저장하고, 리틀엔디안은 00 AC로 저장합니다.

이런 저장 방식의 차이를 다른 프로그램에게 설명하기 위해서 특정한 값이 필요하고, 유니코드 문서의 첫 번째에 이 값을 삽입하여 주는것을 BOM이라고 합니다.

인코딩별 BOM
- UTF-8: EF BB BF
- UTF-16 BE: FE FF
- UTF-16 LE: FF FE

저장된 파일을 Hex Viewer 등으로 hex 값을 확인하면 다음과 같이 BOM 정보가 들어 있는 것을 알 수 있습니다. (각각 '가나다' 가 입력된 파일입니다.)

# UTF-8
00000000:  efbb bfea b080 eb82 98eb 8ba4     

# UTF-16 LE
00000000:  fffe 00ac 98b0 e4b2

BOM으로 인한 문제

UTF-8은 저장 방식의 차이가 없기 때문에 BOM이 없어도 되지만, 메모장 등의 몇몇 프로그램에서는 BOM을 삽입하고 있습니다. 이로 인하여 파일을 읽을 때 첫번째 문자가 깨지는 현상이 발생하게 됩니다. 다른 형식의 OS와 협업하는 경우에는 sublime, notepad++ 등의 프로그램을 이용할 때는 저정할 때 BOM없이 저장하도록 설정하여 주는 것이 좋습니다.

저작자표시 비영리 동일조건 (새창열림)

'개념' 카테고리의 다른 글

[개념] IPv4와 IPv6 (0)	2019.10.31
[개념] 머신러닝과 데이터마이닝 (0)	2019.09.24
[개념] 한글 문자 인코딩 (0)	2019.09.17
[개념] NoSQL (0)	2019.08.08
[개념] 메모리 누수(Memory Leak) 현상 (0)	2019.07.02

[개념] 유니코드 인코딩 UTF와 BOM

BOM으로 인한 문제

'개념' 카테고리의 다른 글

티스토리툴바