[hive] 하이브에서 MR 작업 결과를 merge 하는 방법

하둡은 작은 크기의 파일이 많으면 성능에 안좋은 영향을 주게 된다.

파일이 많다. -> 네임노드가 관리해야할 파일이 많아진다. -> 성능이 느려진다.

작은 사이즈의 파일이 많다. -> 네임노드가 관리해야 하는 블록의 개수가 많아진다. -> 성능이 느려진다.

따라서 하이브 작업의 결과를 합쳐서 비슷한 크기로 만드는 것이 좋다.

아래의 설정을 이용하여 결과를 합쳐준다.

set hive.merge.mapfiles=true;

- map only 잡의 결과 파일을 합친다.

set hive.merge.mapredfiles=true;

- 맵리듀스 잡의 결과 파일을 합친다.

set hive.merge.tezfiles=true;

- tez 엔진 작업의 결과를 합친다.

set hive.merge.smallfiles.avgsize=16000000;

- 설정한 사이즈 이하의 파일을 합친다.

set hive.merge.size.per.task =256000000;

- 합치는 파일의 사이즈

즉, 위와 같이 설정하면 16mb 이하의 파일을 256mb 파일로 합쳐준다.

[hive] drop table 처리중 GC 또는 OutOfMemory 오류가 발생하는 경우 (0)	2018.03.14
[hive] hive.exec.dynamic.partition.mode, hive.optimize.sort.dynamic.partiton 설정에 따른 성능 저하 확인 (1)	2018.03.08
[hive] 테이블 생성시 예약어를 사용하는 방법 (0)	2018.02.08
[hive] java.lang.OutOfMemoryError: Java heap space 오류 수정 (0)	2018.01.03
[hive][db] rank() 함수를 이용하여 그룹별로 상위 n개의 결과만 출력하는 방법 (0)	2017.12.27

티스토리툴바