본문 바로가기
빅데이터/hive

[hive] order by, sort by, cluster by 의 차이

by hs_seo 2017. 2. 14.

Order by

- 전체 데이터를 정렬

- 하나의 리듀서로 진행

- 용량이 커지면 문제가 발생할 가능성이 높음

- 용량이 많을 경우 limit 를 이용하여 데이터를 제한해야 함


sort by

- 리듀서별로 데이터를 정렬

- 즉, 파일별로 정렬되어 생성됨

- 보통 distribute by 와 함께 사용하여 처리, 

- distribute by는 리듀서로 보내는 데이터의 분류 기준


cluster by

- distributed by, sort by를 동시에 사용한 것





http://saurzcode.in/2015/01/hive-sort-vs-order-vs-distribute-vs-cluster/

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy#LanguageManualSortBy-SyntaxofOrderBy


반응형