티스토리 뷰
하둡은 작은 크기의 파일이 많으면 성능에 안좋은 영향을 주게 된다.
파일이 많다. -> 네임노드가 관리해야할 파일이 많아진다. -> 성능이 느려진다.
작은 사이즈의 파일이 많다. -> 네임노드가 관리해야 하는 블록의 개수가 많아진다. -> 성능이 느려진다.
따라서 하이브 작업의 결과를 합쳐서 비슷한 크기로 만드는 것이 좋다.
아래의 설정을 이용하여 결과를 합쳐준다.
set hive.merge.mapfiles=true;
- map only 잡의 결과 파일을 합친다.
set hive.merge.mapredfiles=true;
- 맵리듀스 잡의 결과 파일을 합친다.
set hive.merge.tezfiles=true;
- tez 엔진 작업의 결과를 합친다.
set hive.merge.smallfiles.avgsize=16000000;
- 설정한 사이즈 이하의 파일을 합친다.
set hive.merge.size.per.task =256000000;
- 합치는 파일의 사이즈
즉, 위와 같이 설정하면 16mb 이하의 파일을 256mb 파일로 합쳐준다.
반응형
'빅데이터 > hive' 카테고리의 다른 글
[hive] drop table 처리중 GC 또는 OutOfMemory 오류가 발생하는 경우 (0) | 2018.03.14 |
---|---|
[hive] hive.exec.dynamic.partition.mode, hive.optimize.sort.dynamic.partiton 설정에 따른 성능 저하 확인 (1) | 2018.03.08 |
[hive] 테이블 생성시 예약어를 사용하는 방법 (0) | 2018.02.08 |
[hive] java.lang.OutOfMemoryError: Java heap space 오류 수정 (0) | 2018.01.03 |
[hive][db] rank() 함수를 이용하여 그룹별로 상위 n개의 결과만 출력하는 방법 (0) | 2017.12.27 |
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- HIVE
- mysql
- 하이브
- Python
- yarn
- Hadoop
- nodejs
- error
- airflow
- 정올
- 다이나믹
- HDFS
- 하둡
- build
- Linux
- ubuntu
- 오류
- bash
- 백준
- 알고리즘
- AWS
- S3
- hbase
- oozie
- java
- Tez
- SQL
- SPARK
- emr
- 파이썬
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함