[hive] 하이브에서 MR 작업 결과를 merge 하는 방법
하둡은 작은 크기의 파일이 많으면 성능에 안좋은 영향을 주게 된다. 파일이 많다. -> 네임노드가 관리해야할 파일이 많아진다. -> 성능이 느려진다. 작은 사이즈의 파일이 많다. -> 네임노드가 관리해야 하는 블록의 개수가 많아진다. -> 성능이 느려진다. 따라서 하이브 작업의 결과를 합쳐서 비슷한 크기로 만드는 것이 좋다. 아래의 설정을 이용하여 결과를 합쳐준다. set hive.merge.mapfiles=true; - map only 잡의 결과 파일을 합친다. set hive.merge.mapredfiles=true; - 맵리듀스 잡의 결과 파일을 합친다. set hive.merge.tezfiles=true; - tez 엔진 작업의 결과를 합친다. set hive.merge.smallfiles.avg..
빅데이터/hive
2018. 3. 7. 18:17
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- ubuntu
- SQL
- Hadoop
- 하둡
- hbase
- S3
- 백준
- AWS
- oozie
- emr
- Python
- build
- Tez
- 다이나믹
- airflow
- 정올
- HDFS
- 오류
- java
- nodejs
- 알고리즘
- 파이썬
- HIVE
- 하이브
- error
- Linux
- SPARK
- bash
- yarn
- mysql
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함