[spark] RDD, Transformation, Action, Dependency 용어 — 개발자로 살아남기

RDD operation

RDD를 제어하는 API operation은 크게 2개의 타입

Transformation: RDD에서 새로운 RDD를 생성하는 함수
Action: RDD에서 RDD가 아닌 타입의 data 로 변환하느 함수들

RDD

MR의 단점

복잡하고 Multi-Stage 한 처리가 느림
interactive 하고 ad-hoc 한 쿼리 실행이 느림

효율적인 데이터 공유 도구를 생성하기 위해 나옴

MR은 중간 단계를 파일을 이용하기 때문에 IO 비용이 많이 들어감
스파크는 하드디스크 대신 RAM을 이용하자

문제가 생기면 복구는 Lineage를 생성하여 새로 만들자

동작의 순서를 기록해 DAG로 표현한 것을 Lineage라고 함

RAM을 Read-Only로 사용

Spark의 Operation

transformation

스파크의 동작 중에서 데이터를 처리하는 명령
map, filter, flatMap, join 등

action

transformation의 결과를 저장하는 명령
count, collect, reduce, save 등

Dependency

narrow dependency

하나의 노드에서 작업이 처리되는 것
노드간 데이터 이동이 없기 때문에 빠르다.

wide dependency

여러 노드에서 작업이 처리되는 것
셔플 단계를 거치기 때문에 느리다.

Spark 의 핵심은 무엇인가? RDD! (RDD paper review) from Yongho Ha

저작자표시 비영리 (새창열림)

'빅데이터 > spark' 카테고리의 다른 글

[scala] 이클립스를 이용하여 스파크의 스칼라 개발환경 설정하기 (0)	2018.06.11
[spark] RDD, DataFrame, DataSet (0)	2018.03.28
[spark] 스파크 디플로이 모드(deploy mode)의 cluster, client 의 차이 (0)	2018.03.27
[spark] 스파크 컨테이너 메모리 오류시 처리 방안 (0)	2018.02.13
[spark] NoSuchElement 오류 해결 방법 (0)	2018.01.08

티스토리툴바