본문 바로가기
빅데이터/hive

[hive] TEZ엔진을 이용한 UNION ALL INSERT문에서 서브디렉토리 생성을 막는 방법

by hs_seo 2019. 4. 9.

하이브에서 TEZ엔진을 이용하여 UNION ALL을 이용하여 생성한 데이터로 데이터를 입력하면 최종 결과가 생성될 때 숫자로 서브 디렉토리가 생성됩니다. 예를 들면 다음과 같은 경우 입니다.

-- INSERT
INSERT OVERWRITE TABLE h1_passwords_target
 SELECT * 
   FROM
   (SELECT * FROM h1_passwords
     UNION ALL
    SELECT * FROM h1_passwords) sub;

-- FROM INSERT
FROM (
SELECT * 
   FROM
   (SELECT * FROM h1_passwords
     UNION ALL
    SELECT * FROM h1_passwords) sub
) R
INSERT OVERWRITE TABLE h1_passwords_target
 *
;

이렇게 데이터를 입력하면 최종 결과로 다음과 같이 폴더에 1, 2 와 같은 숫자로 서브 디렉토리가 생성됩니다.

$ hadoop fs -ls -R /user/h1_passwords_target
drwxrwxrwx   -          0 1970-01-01 00:00 /user/h1_passwords_target/1
-rw-rw-rw-   1   99563778 2019-04-09 05:10 /user/h1_passwords_target/1/000000_0
drwxrwxrwx   -          0 1970-01-01 00:00 /user/h1_passwords_target/2
-rw-rw-rw-   1   99563778 2019-04-09 05:10 /user/h1_passwords_target/2/000000_0

하이브 메일링 리스트에 따르면 같은 폴더에 데이터를 입력할 때 발생하는 이름 충돌을 방지하기 위해서라고 합니다. 위의 쿼리는 데이터를 읽어서 바로 쓰는 쿼리이기 때문에 맵퍼만(mapper only) 동작하는 작업입니다. 따라서 각 매퍼의 결과를 동시에 같은 폴더에 쓰게 되기 때문에 이름 충돌을 방지하기 위해서 서브 디렉토리를 생성합니다. MR 엔진에서는 이 문제가 발생하지 않습니다.

 

http://mail-archives.apache.org/mod_mbox/hive-user/201508.mbox/browser

 

hive-user mailing list archives

 

mail-archives.apache.org

 

이 문제를 해결하는 방법은 적재한 데이터를 재적재 하거나, 데이터를 입력할 때 SORT BY, CLUSTER BY 등을 이용하여 리듀서를 타는 작업으로 개선하면 됩니다.

-- 리듀서 작업을 추가 
INSERT OVERWRITE TABLE h1_passwords_target
SELECT * 
  FROM
  (SELECT * FROM h1_passwords
    UNION ALL
   SELECT * FROM h1_passwords) sub
  SORT BY sub.name;
반응형