본문 바로가기
빅데이터/hadoop

[hadoop] 맵리듀스 동작 순서

by hs_seo 2018. 4. 17.




맵리듀스는 8단계로 나누어져 있다고 할 수 있습니다.
각 단계는 작업에 따라서 생략될 수도 있습니다.

입력
   -데이터를 입력하는 단계
   -텍스트, csv, gzip 형태의 데이터를 읽어서 맵으로 전달

맵(Map)
   -입력을 분할하여 키별로 데이터를 처리

컴바이너(Combiner)
   -네트워크를 타고 넘어가는 데이터를 줄이기 위하여 맵의 결과를 정리
   -로컬 리듀서라고도 함
   -컴바이너는 작업의 설정에 따라 없을 수도 있음

파티셔너(Partitoner)
   -맵의 출력 결과 키 값을 해쉬 처리하여 어떤 리듀서로 넘길지를 결정

셔플(Shuffle)
   -각 리듀서로 데이터 이동

정렬(Sort)
   -리듀서로 전달된 데이터를 키 값 기준으로 정렬

리듀서(Reduce)
   -리듀서로 데이터를 처리하고 결과를 저장

출력
   -리듀서의 결과를 정의된 형태로 저장





반응형