본문 바로가기
빅데이터/hive

[hive] skewed 테이블

by hs_seo 2016. 9. 12.

하이브의 성능을 높이기 위해서 스큐드 테이블을 이용할 수 있다. 


스큐드(skewed)란 사전적으로 비스듬하다는 뜻이다. 

하이브에서 스큐드 테이블을 선언하면 해당 컬럼으로 많이 들어오는 데이터는 따로 파일을 만들어서 보관하게 된다. 


칼럼의 특정 값으로 데이터가 많을때 선언하게 되면 따로 파일을 만들어 주게 되어 성능을 올릴 수 있게 된다. 




하이브 매뉴얼에 다음과 같은 내용이 존재한다. 

스큐드 테이블을 이용하면 파일을 따로 생성하여 주고, 거기에 리스트 버켓팅까지 추가하면 따로 디렉토리로 만들어 준다고 한다. 

Skewed Table vs. List Bucketing Table

  • Skewed Table is a table which has skewed information.
  • List Bucketing Table is a skewed table. In addition, it tells Hive to use the list bucketing feature on the skewed table: create sub-directories for skewed values.





반응형