[hive] TEZ엔진을 이용한 UNION ALL INSERT문에서 서브디렉토리 생성을 막는 방법

하이브에서 TEZ엔진을 이용하여 UNION ALL을 이용하여 생성한 데이터로 데이터를 입력하면 최종 결과가 생성될 때 숫자로 서브 디렉토리가 생성됩니다. 예를 들면 다음과 같은 경우 입니다.

-- INSERT
INSERT OVERWRITE TABLE h1_passwords_target
 SELECT * 
   FROM
   (SELECT * FROM h1_passwords
     UNION ALL
    SELECT * FROM h1_passwords) sub;

-- FROM INSERT
FROM (
SELECT * 
   FROM
   (SELECT * FROM h1_passwords
     UNION ALL
    SELECT * FROM h1_passwords) sub
) R
INSERT OVERWRITE TABLE h1_passwords_target
 *
;

이렇게 데이터를 입력하면 최종 결과로 다음과 같이 폴더에 1, 2 와 같은 숫자로 서브 디렉토리가 생성됩니다.

$ hadoop fs -ls -R /user/h1_passwords_target
drwxrwxrwx   -          0 1970-01-01 00:00 /user/h1_passwords_target/1
-rw-rw-rw-   1   99563778 2019-04-09 05:10 /user/h1_passwords_target/1/000000_0
drwxrwxrwx   -          0 1970-01-01 00:00 /user/h1_passwords_target/2
-rw-rw-rw-   1   99563778 2019-04-09 05:10 /user/h1_passwords_target/2/000000_0

하이브 메일링 리스트에 따르면 같은 폴더에 데이터를 입력할 때 발생하는 이름 충돌을 방지하기 위해서라고 합니다. 위의 쿼리는 데이터를 읽어서 바로 쓰는 쿼리이기 때문에 맵퍼만(mapper only) 동작하는 작업입니다. 따라서 각 매퍼의 결과를 동시에 같은 폴더에 쓰게 되기 때문에 이름 충돌을 방지하기 위해서 서브 디렉토리를 생성합니다. MR 엔진에서는 이 문제가 발생하지 않습니다.

http://mail-archives.apache.org/mod_mbox/hive-user/201508.mbox/browser

hive-user mailing list archives

mail-archives.apache.org

이 문제를 해결하는 방법은 적재한 데이터를 재적재 하거나, 데이터를 입력할 때 SORT BY, CLUSTER BY 등을 이용하여 리듀서를 타는 작업으로 개선하면 됩니다.

-- 리듀서 작업을 추가 
INSERT OVERWRITE TABLE h1_passwords_target
SELECT * 
  FROM
  (SELECT * FROM h1_passwords
    UNION ALL
   SELECT * FROM h1_passwords) sub
  SORT BY sub.name;

'빅데이터 > hive' 카테고리의 다른 글

[hive] common.JvmPauseMonitor (JvmPauseMonitor.java:run(194)) - Detected pause in JVM or host machine (eg GC): pause of approximately 1727ms 메시지 (0)	2019.07.01
[hive] 하이브 테이블 조회시 파티션 개수 제약하기 (0)	2019.05.22
[hive] explain을 이용하여 CBO 적용 여부 확인 (0)	2019.04.05
[hive] TEZ엔진의 리듀서 처리중 셔플 단계의 OutOfMemoryError: Java heap space 오류 처리 (0)	2019.04.05
[hive] Vertex's TaskResource is beyond the cluster container capability 오류 처리 (0)	2019.04.05

'빅데이터 > hive' 카테고리의 다른 글

티스토리툴바