티스토리 뷰
하이브에서 TEZ엔진을 이용하여 UNION ALL을 이용하여 생성한 데이터로 데이터를 입력하면 최종 결과가 생성될 때 숫자로 서브 디렉토리가 생성됩니다. 예를 들면 다음과 같은 경우 입니다.
-- INSERT
INSERT OVERWRITE TABLE h1_passwords_target
SELECT *
FROM
(SELECT * FROM h1_passwords
UNION ALL
SELECT * FROM h1_passwords) sub;
-- FROM INSERT
FROM (
SELECT *
FROM
(SELECT * FROM h1_passwords
UNION ALL
SELECT * FROM h1_passwords) sub
) R
INSERT OVERWRITE TABLE h1_passwords_target
*
;
이렇게 데이터를 입력하면 최종 결과로 다음과 같이 폴더에 1, 2 와 같은 숫자로 서브 디렉토리가 생성됩니다.
$ hadoop fs -ls -R /user/h1_passwords_target
drwxrwxrwx - 0 1970-01-01 00:00 /user/h1_passwords_target/1
-rw-rw-rw- 1 99563778 2019-04-09 05:10 /user/h1_passwords_target/1/000000_0
drwxrwxrwx - 0 1970-01-01 00:00 /user/h1_passwords_target/2
-rw-rw-rw- 1 99563778 2019-04-09 05:10 /user/h1_passwords_target/2/000000_0
하이브 메일링 리스트에 따르면 같은 폴더에 데이터를 입력할 때 발생하는 이름 충돌을 방지하기 위해서라고 합니다. 위의 쿼리는 데이터를 읽어서 바로 쓰는 쿼리이기 때문에 맵퍼만(mapper only) 동작하는 작업입니다. 따라서 각 매퍼의 결과를 동시에 같은 폴더에 쓰게 되기 때문에 이름 충돌을 방지하기 위해서 서브 디렉토리를 생성합니다. MR 엔진에서는 이 문제가 발생하지 않습니다.
http://mail-archives.apache.org/mod_mbox/hive-user/201508.mbox/browser
이 문제를 해결하는 방법은 적재한 데이터를 재적재 하거나, 데이터를 입력할 때 SORT BY, CLUSTER BY 등을 이용하여 리듀서를 타는 작업으로 개선하면 됩니다.
-- 리듀서 작업을 추가
INSERT OVERWRITE TABLE h1_passwords_target
SELECT *
FROM
(SELECT * FROM h1_passwords
UNION ALL
SELECT * FROM h1_passwords) sub
SORT BY sub.name;
반응형
'빅데이터 > hive' 카테고리의 다른 글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Hadoop
- yarn
- emr
- 파이썬
- Python
- build
- 알고리즘
- 다이나믹
- S3
- airflow
- nodejs
- 정올
- bash
- 하둡
- java
- SQL
- ubuntu
- hbase
- Tez
- error
- 하이브
- 백준
- HIVE
- Linux
- AWS
- 오류
- SPARK
- oozie
- HDFS
- mysql
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함