하이브에서 TEZ엔진을 이용하여 UNION ALL을 이용하여 생성한 데이터로 데이터를 입력하면 최종 결과가 생성될 때 숫자로 서브 디렉토리가 생성됩니다. 예를 들면 다음과 같은 경우 입니다.
-- INSERT
INSERT OVERWRITE TABLE h1_passwords_target
SELECT *
FROM
(SELECT * FROM h1_passwords
UNION ALL
SELECT * FROM h1_passwords) sub;
-- FROM INSERT
FROM (
SELECT *
FROM
(SELECT * FROM h1_passwords
UNION ALL
SELECT * FROM h1_passwords) sub
) R
INSERT OVERWRITE TABLE h1_passwords_target
*
;
이렇게 데이터를 입력하면 최종 결과로 다음과 같이 폴더에 1, 2 와 같은 숫자로 서브 디렉토리가 생성됩니다.
$ hadoop fs -ls -R /user/h1_passwords_target
drwxrwxrwx - 0 1970-01-01 00:00 /user/h1_passwords_target/1
-rw-rw-rw- 1 99563778 2019-04-09 05:10 /user/h1_passwords_target/1/000000_0
drwxrwxrwx - 0 1970-01-01 00:00 /user/h1_passwords_target/2
-rw-rw-rw- 1 99563778 2019-04-09 05:10 /user/h1_passwords_target/2/000000_0
하이브 메일링 리스트에 따르면 같은 폴더에 데이터를 입력할 때 발생하는 이름 충돌을 방지하기 위해서라고 합니다. 위의 쿼리는 데이터를 읽어서 바로 쓰는 쿼리이기 때문에 맵퍼만(mapper only) 동작하는 작업입니다. 따라서 각 매퍼의 결과를 동시에 같은 폴더에 쓰게 되기 때문에 이름 충돌을 방지하기 위해서 서브 디렉토리를 생성합니다. MR 엔진에서는 이 문제가 발생하지 않습니다.
http://mail-archives.apache.org/mod_mbox/hive-user/201508.mbox/browser
이 문제를 해결하는 방법은 적재한 데이터를 재적재 하거나, 데이터를 입력할 때 SORT BY, CLUSTER BY 등을 이용하여 리듀서를 타는 작업으로 개선하면 됩니다.
-- 리듀서 작업을 추가
INSERT OVERWRITE TABLE h1_passwords_target
SELECT *
FROM
(SELECT * FROM h1_passwords
UNION ALL
SELECT * FROM h1_passwords) sub
SORT BY sub.name;
반응형