티스토리 뷰
하둡은 작은 크기의 파일이 많으면 성능에 안좋은 영향을 주게 된다.
파일이 많다. -> 네임노드가 관리해야할 파일이 많아진다. -> 성능이 느려진다.
작은 사이즈의 파일이 많다. -> 네임노드가 관리해야 하는 블록의 개수가 많아진다. -> 성능이 느려진다.
따라서 하이브 작업의 결과를 합쳐서 비슷한 크기로 만드는 것이 좋다.
아래의 설정을 이용하여 결과를 합쳐준다.
set hive.merge.mapfiles=true;
- map only 잡의 결과 파일을 합친다.
set hive.merge.mapredfiles=true;
- 맵리듀스 잡의 결과 파일을 합친다.
set hive.merge.tezfiles=true;
- tez 엔진 작업의 결과를 합친다.
set hive.merge.smallfiles.avgsize=16000000;
- 설정한 사이즈 이하의 파일을 합친다.
set hive.merge.size.per.task =256000000;
- 합치는 파일의 사이즈
즉, 위와 같이 설정하면 16mb 이하의 파일을 256mb 파일로 합쳐준다.
반응형
'빅데이터 > hive' 카테고리의 다른 글
[hive] drop table 처리중 GC 또는 OutOfMemory 오류가 발생하는 경우 (0) | 2018.03.14 |
---|---|
[hive] hive.exec.dynamic.partition.mode, hive.optimize.sort.dynamic.partiton 설정에 따른 성능 저하 확인 (0) | 2018.03.08 |
[hive] 테이블 생성시 예약어를 사용하는 방법 (0) | 2018.02.08 |
[hive] java.lang.OutOfMemoryError: Java heap space 오류 수정 (0) | 2018.01.03 |
[hive][db] rank() 함수를 이용하여 그룹별로 상위 n개의 결과만 출력하는 방법 (0) | 2017.12.27 |
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 오류
- 하이브
- 백준
- build
- HIVE
- 다이나믹
- SPARK
- nodejs
- Python
- Tez
- emr
- mysql
- bash
- 파이썬
- SQL
- Hadoop
- ubuntu
- oozie
- HDFS
- 정올
- 하둡
- airflow
- S3
- hbase
- AWS
- java
- 알고리즘
- error
- Linux
- yarn
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함