[hadoop] shuffle 단계 메모리 설정 정보

셔플단계는 Map task와 Reduce task 단계에서 데이터를 전달하는 과정이다.

맵리듀스는 다음의 단계를 거치는데,

3~7 단계가 셔플 과정에 있다고 볼 수 있다.

1. 스플릿 생성

2. 맵

3. 스필

4. 병합

5. 복사

6. 정렬

7. 리듀스

이 셔플 단계에서 설정할 수 있는 설정값은 다음과 같다.

copy phase 에서 데이터를 병렬로 전송하는 thread의 수 (default 5)
reduce task는 클러스터 내에 퍼져 있는 많은 map task로부터 특정 파티션에 해당하는 output을 필요로 하여 map task의 출력이 끝나는 즉시 복사하기 시작함. 그 때 데이터를 전송하는 thread 수를 조정하는 설정값

Shuffle 단계에서 map output 크기가 충분히 작다면 reduce task JVM 메모리 버퍼에 복사되는데 이러한 목적으로 사용할 메모리 버퍼 크기를 전체 heap 메모리 사이즈의 비율로 지정해주는 설정값 (default 0.7)
셔플단계에서 메모리 부족으로 오류가 발생할 경우 해당 값을 0.7에서 0.5 정도로 수정하면 메모리 부족을 방지할 수 있음

Reduce tasks JVM > shuffle input buffer > shuffle limit memory

티스토리툴바