[hive] Blobstore 기능으로 처리 속도 증가

2019. 12. 19. 07:13·빅데이터/hive

하이브 2.2.0 버전부터 Blobstore기능을 제공합니다.

 

Blobstore

Blobstore는 하이브 작업시에 생성되는 임시 파일을 S3에 작성하지 않고, HDFS에 작성하는 기능을 제공합니다. HDFS가 S3보다 IO속도가 빠르기 때문에 작업의 속도가 빨라지게 됩니다. 해당 기능을 이용하였을 때 1.5배 정도의 속도 증가가 이루어졌습니다. 

 

하이브에서 TEZ로 작업하고 파일 머지까지 발생하는 작업으로 테스트 결과 MR속도와 파일 머지 속도가 빨라서 전체 작업시간이 다음과 같이 HDFS를 사용하는 경우가 1.5배 빠르게 나왔습니다. 

 

하지만 HDFS를 사용하는 경우 임시파일의 저장으로 인한 작업 공간의 사용, 네임노드 관리로 인한 과부하 등의 오버헤드가 발생하기 때문에 작업의 형태에 따라 적절한 선택과 테스트가 필요할 것 같습니다. 

 

  • true(S3): 33초
  • false(HDFS): 22초
# blobstore 사용이 가능한 저장 스키마 
set hive.blobstore.support.shcemes=s3,s3a,s3n;
# false 일때 HDFS에 임시 파일을 작성 
set hive.blobstore.optimizations.enabled=true;
# 임시 파일의 저장여부 
set hive.blobstore.use.blobstore.as.scratchdir=false;

 

https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties#ConfigurationProperties-Blobstore(i.e.AmazonS3)

 

Configuration Properties - Apache Hive - Apache Software Foundation

 

cwiki.apache.org

 

반응형
저작자표시 비영리 동일조건 (새창열림)

'빅데이터 > hive' 카테고리의 다른 글

[hive] 벡터화(vectorized) 처리  (0) 2020.01.07
[hive] 하이브의 조인방식(hive join)  (0) 2020.01.06
[hive] MSCK is missing partition columns under location. 오류 해결 방법  (0) 2019.12.04
[hive] Error in getting fields from serde.Invalid Field null 오류 수정 방법  (0) 2019.12.04
[hive] 하이브 schemaTool을 이용하여 스키마 생성  (0) 2019.10.30
'빅데이터/hive' 카테고리의 다른 글
  • [hive] 벡터화(vectorized) 처리
  • [hive] 하이브의 조인방식(hive join)
  • [hive] MSCK is missing partition columns under location. 오류 해결 방법
  • [hive] Error in getting fields from serde.Invalid Field null 오류 수정 방법
hs_seo
hs_seo
Hello World!
    반응형
  • hs_seo
    개발자로 살아남기
    hs_seo
  • 전체
    오늘
    어제
    • 전체 (1140)
      • 개발자 (21)
        • 개발에 유의할 점 (0)
        • 면접 (5)
      • IT 소식 (5)
        • 업계 (1)
      • java (51)
        • 디자인패턴 (3)
        • apache-common (1)
      • 개념 (47)
        • 자료구조 (4)
        • 함수형사고 (8)
        • 디자인패턴 (1)
      • 데이터분석 (1)
      • python (67)
        • 코드조각 (12)
        • 라이브러리 (2)
      • 빅데이터 (418)
        • zookeeper (5)
        • hadoop (78)
        • hdfs (12)
        • hive (127)
        • hbase (16)
        • spark (40)
        • scala (4)
        • trino (3)
        • oozie (41)
        • Hue (9)
        • R (5)
        • sqoop (6)
        • flume (3)
        • elasticsearch (2)
        • airflow (16)
        • kafka (3)
        • kubernetes (10)
        • openstack (3)
        • flink (2)
        • redis (2)
      • 빅데이터 강좌 (2)
      • 알고리즘 (131)
        • 알고리즘 (1)
        • 백준 (61)
        • 정올 (41)
        • 더블릿 (5)
        • 프로그래머스 (1)
      • 프로그래밍 언어 (30)
        • go (4)
        • js (9)
        • .Net (6)
        • Jsp (1)
        • ansible (3)
        • terraform (6)
      • Tools (56)
        • docker (2)
        • macbook (6)
        • maven (3)
        • sublime (1)
      • 프레임워크 (25)
        • [JS] angularjs (2)
        • [JS] node.js (19)
        • [Java] spring (2)
        • Android (2)
      • 데이타베이스 (43)
        • SQLD (5)
        • Oracle (1)
        • MySQL (8)
        • ADsP (2)
      • 리눅스 (25)
        • Bash (61)
      • GCP (5)
      • AWS (34)
        • EC2 (2)
        • EMR (14)
      • 정보보안기사 (4)
        • 네트워크 (1)
      • 개인 (80)
        • 업무실수 (0)
        • 책 (9)
        • 교육 (3)
        • 여행 (17)
        • 영화 (12)
        • 음악 (2)
        • 피규어 (4)
        • 게임 (3)
        • 생각 (7)
        • 기타 (10)
        • 좋은글 (5)
        • 좋은 사이트 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 미디어로그
    • 위치로그
    • 방명록
  • 링크

    • 빅데이터-하둡,하이브로 시작하기
    • 빅데이터-스칼라, 스파크로 시작하기
    • Kaggle에서 파이썬으로 데이터 분석 시작하기
    • 쉘스크립트 개발 시작하기
    • 개발자가 데이터 분석 준전문가 되기
    • 데브쿠마
  • 공지사항

  • 인기 글

  • 태그

    하이브
    Python
    Linux
    error
    AWS
    k8s
    oozie
    백준
    S3
    mysql
    HDFS
    SPARK
    다이나믹
    yarn
    java
    build
    emr
    airflow
    hbase
    bash
    HIVE
    오류
    ubuntu
    Hadoop
    파이썬
    하둡
    정올
    nodejs
    Tez
    알고리즘
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
hs_seo
[hive] Blobstore 기능으로 처리 속도 증가
상단으로

티스토리툴바