티스토리 뷰
유니코드의 인코딩 방식은 UTF-16은 빅엔디안(BE) 모드와 리틀엔디안(LE)모드가 있습니다. 바이트 순서 마크(BOM, Byte Order Mark)는 이 형식을 구분하기 위해서 존재합니다.
빅엔디안과 리틀엔디안은 메모리 저장방식의 차이입니다. AC 00
이라는 값을 메모리에 저장할 때 빅엔디안은 AC 00
으로 저장하고, 리틀엔디안은 00 AC
로 저장합니다.
이런 저장 방식의 차이를 다른 프로그램에게 설명하기 위해서 특정한 값이 필요하고, 유니코드 문서의 첫 번째에 이 값을 삽입하여 주는것을 BOM이라고 합니다.
- 인코딩별 BOM
- UTF-8: EF BB BF
- UTF-16 BE: FE FF
- UTF-16 LE: FF FE
저장된 파일을 Hex Viewer 등으로 hex 값을 확인하면 다음과 같이 BOM 정보가 들어 있는 것을 알 수 있습니다. (각각 '가나다' 가 입력된 파일입니다.)
# UTF-8
00000000: efbb bfea b080 eb82 98eb 8ba4
# UTF-16 LE
00000000: fffe 00ac 98b0 e4b2
BOM으로 인한 문제
UTF-8은 저장 방식의 차이가 없기 때문에 BOM이 없어도 되지만, 메모장 등의 몇몇 프로그램에서는 BOM을 삽입하고 있습니다. 이로 인하여 파일을 읽을 때 첫번째 문자가 깨지는 현상이 발생하게 됩니다. 다른 형식의 OS와 협업하는 경우에는 sublime, notepad++ 등의 프로그램을 이용할 때는 저정할 때 BOM없이 저장하도록 설정하여 주는 것이 좋습니다.
반응형
'개념' 카테고리의 다른 글
[개념] IPv4와 IPv6 (0) | 2019.10.31 |
---|---|
[개념] 머신러닝과 데이터마이닝 (0) | 2019.09.24 |
[개념] 한글 문자 인코딩 (0) | 2019.09.17 |
[개념] NoSQL (0) | 2019.08.08 |
[개념] 메모리 누수(Memory Leak) 현상 (0) | 2019.07.02 |
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 다이나믹
- 알고리즘
- 오류
- S3
- airflow
- emr
- 백준
- error
- hbase
- 정올
- java
- AWS
- Tez
- Hadoop
- 하이브
- HIVE
- Python
- 파이썬
- build
- bash
- oozie
- ubuntu
- HDFS
- Linux
- SPARK
- 하둡
- SQL
- yarn
- nodejs
- mysql
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함