본문 바로가기
개념

[개념] 유니코드 인코딩 UTF와 BOM

by hs_seo 2019. 9. 17.

유니코드의 인코딩 방식은 UTF-16은 빅엔디안(BE) 모드와 리틀엔디안(LE)모드가 있습니다. 바이트 순서 마크(BOM, Byte Order Mark)는 이 형식을 구분하기 위해서 존재합니다.

 

빅엔디안과 리틀엔디안은 메모리 저장방식의 차이입니다. AC 00이라는 값을 메모리에 저장할 때 빅엔디안은 AC 00으로 저장하고, 리틀엔디안은 00 AC로 저장합니다.

 

이런 저장 방식의 차이를 다른 프로그램에게 설명하기 위해서 특정한 값이 필요하고, 유니코드 문서의 첫 번째에 이 값을 삽입하여 주는것을 BOM이라고 합니다.

 

  • 인코딩별 BOM
    • UTF-8: EF BB BF
    • UTF-16 BE: FE FF
    • UTF-16 LE: FF FE

 

저장된 파일을 Hex Viewer 등으로 hex 값을 확인하면 다음과 같이 BOM 정보가 들어 있는 것을 알 수 있습니다. (각각 '가나다' 가 입력된 파일입니다.)

# UTF-8
00000000:  efbb bfea b080 eb82 98eb 8ba4     

# UTF-16 LE
00000000:  fffe 00ac 98b0 e4b2  

BOM으로 인한 문제

UTF-8은 저장 방식의 차이가 없기 때문에 BOM이 없어도 되지만, 메모장 등의 몇몇 프로그램에서는 BOM을 삽입하고 있습니다. 이로 인하여 파일을 읽을 때 첫번째 문자가 깨지는 현상이 발생하게 됩니다. 다른 형식의 OS와 협업하는 경우에는 sublime, notepad++ 등의 프로그램을 이용할 때는 저정할 때 BOM없이 저장하도록 설정하여 주는 것이 좋습니다.

반응형

'개념' 카테고리의 다른 글

[개념] IPv4와 IPv6  (0) 2019.10.31
[개념] 머신러닝과 데이터마이닝  (0) 2019.09.24
[개념] 한글 문자 인코딩  (0) 2019.09.17
[개념] NoSQL  (0) 2019.08.08
[개념] 메모리 누수(Memory Leak) 현상  (0) 2019.07.02