빅데이터/hive
[hive] order by, sort by, cluster by 의 차이
hs_seo
2017. 2. 14. 16:06
Order by
- 전체 데이터를 정렬
- 하나의 리듀서로 진행
- 용량이 커지면 문제가 발생할 가능성이 높음
- 용량이 많을 경우 limit 를 이용하여 데이터를 제한해야 함
sort by
- 리듀서별로 데이터를 정렬
- 즉, 파일별로 정렬되어 생성됨
- 보통 distribute by 와 함께 사용하여 처리,
- distribute by는 리듀서로 보내는 데이터의 분류 기준
cluster by
- distributed by, sort by를 동시에 사용한 것
http://saurzcode.in/2015/01/hive-sort-vs-order-vs-distribute-vs-cluster/
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy#LanguageManualSortBy-SyntaxofOrderBy
반응형