Apache livy는 REST Aapi를 이용해서 스파크 작업을 요청할 수 있는 서비스입니다. REST Api와 자바, 스칼라 라이브러리를 이용해서 작업을 요청할 수 있습니다. 다음의 특징을 가집니다.
- 멀티 클라이언트에서 여러 개의 스파크 작업을 요청할 수 있음
- 작업 간 RDD와 데이터 프레임 공유가 가능
- 여러 개의 스파크 컨텍스트를 관리할 수 있고, 스파크 컨텍스트는 얀이나 메조스 같은 클러스터에서 실행(Livy 서버에서 실행되지 않음)
- 스파크 작업은 JAR, 자바/스칼라 API, 코드 조각을 통해 요청
- 보안 통신을 이용해 안정성 제공
REST API 요청 방법
# POST 방식으로 작업 실행
# curl 옵션 -X: 전송방식, -H: 헤더정보추가 -d: POST 파라미터(json 형식)
# file: jar, queue: YARN 큐네임, className: 실행 클래스, args: 실행 아규먼트
$ curl -X POST \
-H "Content-Type:application/json" \
-d "{
\"file: \"hdfs://0.0.0.0:8020/sample.jar\",
\"queue: \"queue_name\",
\"className: \"sdk.test.SparkSample\",
\"args\": [\"A\", \"B\"]
}" \
http://$(hostname -f):8998/batches
# GET 방식으로 실행 중인 작업 확인
curl "http://$(hostname -f):8998/batches" | jq
참고
반응형
'빅데이터' 카테고리의 다른 글
[빅데이터][스크랩] 네이버의 하둡 클러스터 운영 주의 사항 (0) | 2020.03.24 |
---|---|
[빅데이터] 하이브 메타스토어 통합을 지원하는 waggle-dance (0) | 2020.03.12 |
[빅데이터 아키텍처] 네이버의 빅데이터 플랫폼 (0) | 2020.01.31 |
[빅데이터 아키텍처] 멜론의 빅데이터 플랫폼 (0) | 2020.01.29 |
[빅데이터] 아파치 피닉스(Apache Phoenix) (0) | 2019.08.01 |