'Shuffle' 태그의 글 목록

[hadoop] shuffle 단계 메모리 설정 정보

셔플단계는 Map task와 Reduce task 단계에서 데이터를 전달하는 과정이다. 맵리듀스는 다음의 단계를 거치는데, 3~7 단계가 셔플 과정에 있다고 볼 수 있다. 1. 스플릿 생성2. 맵3. 스필4. 병합5. 복사6. 정렬7. 리듀스 이 셔플 단계에서 설정할 수 있는 설정값은 다음과 같다. mapred.reduce.shuffle.parallelcopiescopy phase 에서 데이터를 병렬로 전송하는 thread의 수 (default 5)reduce task는 클러스터 내에 퍼져 있는 많은 map task로부터 특정 파티션에 해당하는 output을 필요로 하여 map task의 출력이 끝나는 즉시 복사하기 시작함. 그 때 데이터를 전송하는 thread 수를 조정하는 설정값mapreduce.re..

빅데이터/hadoop 2018. 3. 26. 17:45

[spark] NoSuchElement 오류 해결 방법

spark 처리중 다음과 같은 오류가 발생하는 경우가 있다. 아마도 shuffle 처리중 메모리가 부족해서 발생하는 것으로 추정된다. 이럴때는 spark.sql.shuffle.partitions 설정을 추가하면 된다. 다음 설정을 추가하여 처리하였다. spark.sql.shuffle.partitions=300spark.default.parallelism=300 diagnostics: User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 2.0 failed 4 times, most recent failure: Lost task 1.3 in stage 2.0 (TI..

빅데이터/spark 2018. 1. 8. 17:41

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

개발자로 살아남기

티스토리툴바