[hive][스크랩] hive orc 예제

2018. 4. 20. 17:40·빅데이터/hive

ORC는 칼럼 기반의 파일 저장방식으로, hive에 적용하면 성능을 개선할 수 있다. 


사용방법은 다음과 같이 STORED AS를 ORC로 선언해주면 된다. 

그리고 TBLPROPERTIES에 설정정보를 입력할 수 있다. 



CREATE TABLE table1

(

    col1 string,

    col2 string,

    col3 string,

    col4 string

)

STORED AS ORC

TBLPROPERTIES (

"orc.compress"="ZLIB",

"orc.compress.size"="262144",

"orc.create.index"="true",

"orc.stripe.size"="268435456",

"orc.row.index.stride"="3000",

"orc.bloom.filter.columns"="col1,col2");



Key

Default

Notes

orc.bloom.filter.columns""

블룸필터를 생성할 컬럼 정보, 콤마(,)로 구분하여 입력 

orc.bloom.filter.fpp0.05

블룸필터의 오판 확률(fpp=false positive portability) 설정 (must >0.0 and <1.0)

orc.compress

ZLIB

압축방식 설정 (one of NONE, ZLIB, SNAPPY)

orc.compress.size

262,144

압축을 처리할 청크 사이즈 설정(256 * 1024 = 262,144)

orc.create.index

true

인덱스 사용 여부 

orc.row.index.stride

10,000

설정 row 이상일 때 인덱스 생성  (must be >= 1000)

orc.stripe.size

67,108,864

스트라이프를 생성할 사이즈 (64 * 1024 *1024 = 67,108,864)), 설정 사이즈마다 하나씩 생성


Hive and Apache Tez: Benchmarked at Yahoo! Scale from DataWorks Summit



[ORC 정보]

https://community.hortonworks.com/articles/75501/orc-creation-best-practices.html

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC#LanguageManualORC-SerializationandCompression


[블룸 필터(Bloom filter)]

원소가 집합에 속하는지 여부를 검사하는데 사용하는 확률적 자료 구조 이다. 


블룸 필터에 의해 어떤 원소가 집합에 속한다고 판단된 경우 실제로는 원소가 집합에 속하지 않는 긍정 오류가 발생하는 것이 가능하지만, 반대로 원소가 집합에 속하지 않는 것으로 판단되었는데 실제로는 원소가 집합에 속하는 부정 오류는 절대로 발생하지 않는다는 특성이 있다. 


https://ko.wikipedia.org/wiki/%EB%B8%94%EB%A3%B8_%ED%95%84%ED%84%B0


반응형
저작자표시 비영리 (새창열림)

'빅데이터 > hive' 카테고리의 다른 글

[hive] Container failed, exitCode=1. Exception from container-launch 오류 해결방법  (0) 2018.04.26
[hive] hive cli 로그 출력하게 설정 변경  (0) 2018.04.25
[hive] hive에서 함수용 테스트 array, map 데이터 생성하는 법  (0) 2018.04.12
[hive] rank() 함수 처리중 Caused by: org.apache.hive.com.esotericsoftware.kryo.KryoException: java.lang.IndexOutOfBoundsException  (0) 2018.04.09
[hive] hive 쿼리 where 조건의 in 사용시 메타 스토어 오류  (0) 2018.04.09
'빅데이터/hive' 카테고리의 다른 글
  • [hive] Container failed, exitCode=1. Exception from container-launch 오류 해결방법
  • [hive] hive cli 로그 출력하게 설정 변경
  • [hive] hive에서 함수용 테스트 array, map 데이터 생성하는 법
  • [hive] rank() 함수 처리중 Caused by: org.apache.hive.com.esotericsoftware.kryo.KryoException: java.lang.IndexOutOfBoundsException
hs_seo
hs_seo
Hello World!
    반응형
  • hs_seo
    개발자로 살아남기
    hs_seo
  • 전체
    오늘
    어제
    • 전체 (1140)
      • 개발자 (21)
        • 개발에 유의할 점 (0)
        • 면접 (5)
      • IT 소식 (5)
        • 업계 (1)
      • java (51)
        • 디자인패턴 (3)
        • apache-common (1)
      • 개념 (47)
        • 자료구조 (4)
        • 함수형사고 (8)
        • 디자인패턴 (1)
      • 데이터분석 (1)
      • python (67)
        • 코드조각 (12)
        • 라이브러리 (2)
      • 빅데이터 (418)
        • zookeeper (5)
        • hadoop (78)
        • hdfs (12)
        • hive (127)
        • hbase (16)
        • spark (40)
        • scala (4)
        • trino (3)
        • oozie (41)
        • Hue (9)
        • R (5)
        • sqoop (6)
        • flume (3)
        • elasticsearch (2)
        • airflow (16)
        • kafka (3)
        • kubernetes (10)
        • openstack (3)
        • flink (2)
        • redis (2)
      • 빅데이터 강좌 (2)
      • 알고리즘 (131)
        • 알고리즘 (1)
        • 백준 (61)
        • 정올 (41)
        • 더블릿 (5)
        • 프로그래머스 (1)
      • 프로그래밍 언어 (30)
        • go (4)
        • js (9)
        • .Net (6)
        • Jsp (1)
        • ansible (3)
        • terraform (6)
      • Tools (56)
        • docker (2)
        • macbook (6)
        • maven (3)
        • sublime (1)
      • 프레임워크 (25)
        • [JS] angularjs (2)
        • [JS] node.js (19)
        • [Java] spring (2)
        • Android (2)
      • 데이타베이스 (43)
        • SQLD (5)
        • Oracle (1)
        • MySQL (8)
        • ADsP (2)
      • 리눅스 (25)
        • Bash (61)
      • GCP (5)
      • AWS (34)
        • EC2 (2)
        • EMR (14)
      • 정보보안기사 (4)
        • 네트워크 (1)
      • 개인 (80)
        • 업무실수 (0)
        • 책 (9)
        • 교육 (3)
        • 여행 (17)
        • 영화 (12)
        • 음악 (2)
        • 피규어 (4)
        • 게임 (3)
        • 생각 (7)
        • 기타 (10)
        • 좋은글 (5)
        • 좋은 사이트 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 미디어로그
    • 위치로그
    • 방명록
  • 링크

    • 빅데이터-하둡,하이브로 시작하기
    • 빅데이터-스칼라, 스파크로 시작하기
    • Kaggle에서 파이썬으로 데이터 분석 시작하기
    • 쉘스크립트 개발 시작하기
    • 개발자가 데이터 분석 준전문가 되기
    • 데브쿠마
  • 공지사항

  • 인기 글

  • 태그

    Python
    yarn
    build
    mysql
    알고리즘
    Linux
    HIVE
    HDFS
    java
    emr
    SPARK
    Tez
    error
    bash
    다이나믹
    hbase
    S3
    ubuntu
    Hadoop
    oozie
    정올
    하이브
    nodejs
    k8s
    AWS
    백준
    파이썬
    오류
    하둡
    airflow
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
hs_seo
[hive][스크랩] hive orc 예제
상단으로

티스토리툴바