Shuffle2 [hadoop] shuffle 단계 메모리 설정 정보 셔플단계는 Map task와 Reduce task 단계에서 데이터를 전달하는 과정이다. 맵리듀스는 다음의 단계를 거치는데, 3~7 단계가 셔플 과정에 있다고 볼 수 있다. 1. 스플릿 생성2. 맵3. 스필4. 병합5. 복사6. 정렬7. 리듀스 이 셔플 단계에서 설정할 수 있는 설정값은 다음과 같다. mapred.reduce.shuffle.parallelcopiescopy phase 에서 데이터를 병렬로 전송하는 thread의 수 (default 5)reduce task는 클러스터 내에 퍼져 있는 많은 map task로부터 특정 파티션에 해당하는 output을 필요로 하여 map task의 출력이 끝나는 즉시 복사하기 시작함. 그 때 데이터를 전송하는 thread 수를 조정하는 설정값mapreduce.re.. 2018. 3. 26. [spark] NoSuchElement 오류 해결 방법 spark 처리중 다음과 같은 오류가 발생하는 경우가 있다. 아마도 shuffle 처리중 메모리가 부족해서 발생하는 것으로 추정된다. 이럴때는 spark.sql.shuffle.partitions 설정을 추가하면 된다. 다음 설정을 추가하여 처리하였다. spark.sql.shuffle.partitions=300spark.default.parallelism=300 diagnostics: User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 2.0 failed 4 times, most recent failure: Lost task 1.3 in stage 2.0 (TI.. 2018. 1. 8. 이전 1 다음