[hadoop] 맵리듀스 동작 순서

맵리듀스는 8단계로 나누어져 있다고 할 수 있습니다.

각 단계는 작업에 따라서 생략될 수도 있습니다.

입력
-데이터를 입력하는 단계

-텍스트, csv, gzip 형태의 데이터를 읽어서 맵으로 전달

맵(Map)
-입력을 분할하여 키별로 데이터를 처리

컴바이너(Combiner)

   -네트워크를 타고 넘어가는 데이터를 줄이기 위하여 맵의 결과를 정리
   -로컬 리듀서라고도 함
   -컴바이너는 작업의 설정에 따라 없을 수도 있음

파티셔너(Partitoner)

-맵의 출력 결과 키 값을 해쉬 처리하여 어떤 리듀서로 넘길지를 결정

셔플(Shuffle)

-각 리듀서로 데이터 이동

정렬(Sort)

-리듀서로 전달된 데이터를 키 값 기준으로 정렬

리듀서(Reduce)

-리듀서로 데이터를 처리하고 결과를 저장

출력

-리듀서의 결과를 정의된 형태로 저장

[hadoop] 세컨더리네임노드(secondary namenode) (0)	2018.09.14
[hadoop] YARN, 맵리듀서 메모리 설정 (0)	2018.05.17
[hadoop] Ambari, Avro (0)	2018.03.29
[hadoop] shuffle 단계 메모리 설정 정보 (0)	2018.03.26
[hadoop] yarn 아키텍처 (0)	2018.01.16

개발자로 살아남기