티스토리 뷰

Order by

- 전체 데이터를 정렬

- 하나의 리듀서로 진행

- 용량이 커지면 문제가 발생할 가능성이 높음

- 용량이 많을 경우 limit 를 이용하여 데이터를 제한해야 함


sort by

- 리듀서별로 데이터를 정렬

- 즉, 파일별로 정렬되어 생성됨

- 보통 distribute by 와 함께 사용하여 처리, 

- distribute by는 리듀서로 보내는 데이터의 분류 기준


cluster by

- distributed by, sort by를 동시에 사용한 것





http://saurzcode.in/2015/01/hive-sort-vs-order-vs-distribute-vs-cluster/

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy#LanguageManualSortBy-SyntaxofOrderBy


반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
글 보관함