티스토리 뷰

하이브에서 TEZ엔진을 이용하여 UNION ALL을 이용하여 생성한 데이터로 데이터를 입력하면 최종 결과가 생성될 때 숫자로 서브 디렉토리가 생성됩니다. 예를 들면 다음과 같은 경우 입니다.

-- INSERT
INSERT OVERWRITE TABLE h1_passwords_target
 SELECT * 
   FROM
   (SELECT * FROM h1_passwords
     UNION ALL
    SELECT * FROM h1_passwords) sub;

-- FROM INSERT
FROM (
SELECT * 
   FROM
   (SELECT * FROM h1_passwords
     UNION ALL
    SELECT * FROM h1_passwords) sub
) R
INSERT OVERWRITE TABLE h1_passwords_target
 *
;

이렇게 데이터를 입력하면 최종 결과로 다음과 같이 폴더에 1, 2 와 같은 숫자로 서브 디렉토리가 생성됩니다.

$ hadoop fs -ls -R /user/h1_passwords_target
drwxrwxrwx   -          0 1970-01-01 00:00 /user/h1_passwords_target/1
-rw-rw-rw-   1   99563778 2019-04-09 05:10 /user/h1_passwords_target/1/000000_0
drwxrwxrwx   -          0 1970-01-01 00:00 /user/h1_passwords_target/2
-rw-rw-rw-   1   99563778 2019-04-09 05:10 /user/h1_passwords_target/2/000000_0

하이브 메일링 리스트에 따르면 같은 폴더에 데이터를 입력할 때 발생하는 이름 충돌을 방지하기 위해서라고 합니다. 위의 쿼리는 데이터를 읽어서 바로 쓰는 쿼리이기 때문에 맵퍼만(mapper only) 동작하는 작업입니다. 따라서 각 매퍼의 결과를 동시에 같은 폴더에 쓰게 되기 때문에 이름 충돌을 방지하기 위해서 서브 디렉토리를 생성합니다. MR 엔진에서는 이 문제가 발생하지 않습니다.

 

http://mail-archives.apache.org/mod_mbox/hive-user/201508.mbox/browser

 

hive-user mailing list archives

 

mail-archives.apache.org

 

이 문제를 해결하는 방법은 적재한 데이터를 재적재 하거나, 데이터를 입력할 때 SORT BY, CLUSTER BY 등을 이용하여 리듀서를 타는 작업으로 개선하면 됩니다.

-- 리듀서 작업을 추가 
INSERT OVERWRITE TABLE h1_passwords_target
SELECT * 
  FROM
  (SELECT * FROM h1_passwords
    UNION ALL
   SELECT * FROM h1_passwords) sub
  SORT BY sub.name;
반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함