맵리듀스는 8단계로 나누어져 있다고 할 수 있습니다.
각 단계는 작업에 따라서 생략될 수도 있습니다.
-데이터를 입력하는 단계
-텍스트, csv, gzip 형태의 데이터를 읽어서 맵으로 전달
-입력을 분할하여 키별로 데이터를 처리
컴바이너(Combiner)
-네트워크를 타고 넘어가는 데이터를 줄이기 위하여 맵의 결과를 정리-로컬 리듀서라고도 함
-컴바이너는 작업의 설정에 따라 없을 수도 있음
파티셔너(Partitoner)
-맵의 출력 결과 키 값을 해쉬 처리하여 어떤 리듀서로 넘길지를 결정셔플(Shuffle)
-각 리듀서로 데이터 이동정렬(Sort)
-리듀서로 전달된 데이터를 키 값 기준으로 정렬리듀서(Reduce)
-리듀서로 데이터를 처리하고 결과를 저장출력
-리듀서의 결과를 정의된 형태로 저장반응형
'빅데이터 > hadoop' 카테고리의 다른 글
[hadoop] 세컨더리네임노드(secondary namenode) (0) | 2018.09.14 |
---|---|
[hadoop] YARN, 맵리듀서 메모리 설정 (0) | 2018.05.17 |
[hadoop] Ambari, Avro (0) | 2018.03.29 |
[hadoop] shuffle 단계 메모리 설정 정보 (0) | 2018.03.26 |
[hadoop] yarn 아키텍처 (0) | 2018.01.16 |