티스토리 뷰
하이브의 성능을 높이기 위해서 스큐드 테이블을 이용할 수 있다.
스큐드(skewed)란 사전적으로 비스듬하다는 뜻이다.
하이브에서 스큐드 테이블을 선언하면 해당 컬럼으로 많이 들어오는 데이터는 따로 파일을 만들어서 보관하게 된다.
칼럼의 특정 값으로 데이터가 많을때 선언하게 되면 따로 파일을 만들어 주게 되어 성능을 올릴 수 있게 된다.
하이브 매뉴얼에 다음과 같은 내용이 존재한다.
스큐드 테이블을 이용하면 파일을 따로 생성하여 주고, 거기에 리스트 버켓팅까지 추가하면 따로 디렉토리로 만들어 준다고 한다.
Skewed Table vs. List Bucketing Table
- Skewed Table is a table which has skewed information.
- List Bucketing Table is a skewed table. In addition, it tells Hive to use the list bucketing feature on the skewed table: create sub-directories for skewed values.
http://stackoverflow.com/questions/18766721/skewed-tables-in-hive
https://cwiki.apache.org/confluence/display/Hive/ListBucketing
반응형
'빅데이터 > hive' 카테고리의 다른 글
[hive] 하이브의 가상 컬럼(virtual column)을 이용하여 파일 내용 삭제 (0) | 2016.09.30 |
---|---|
[하이브] 매니지드 테이블과 익스터널 테이블 변경하기 (0) | 2016.09.23 |
[hadoop][hive] 리듀서 개수 조절하는 순서 (0) | 2016.09.06 |
[hive][개념] 하이브 서버2(hiverserver2), 비라인(beeline) (0) | 2016.08.26 |
[하이브] 파티션 복구 하기(repair partitions) (0) | 2016.07.11 |
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 오류
- Linux
- HDFS
- airflow
- java
- SQL
- 알고리즘
- oozie
- SPARK
- 정올
- 백준
- hbase
- 파이썬
- Hadoop
- mysql
- 다이나믹
- build
- 하이브
- S3
- yarn
- HIVE
- error
- 하둡
- Tez
- Python
- nodejs
- ubuntu
- bash
- AWS
- emr
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함