[빅데이터] ORC와 Parquet 파일 저장 형식

2019. 2. 19. 18:14·빅데이터

빅데이터는 효율적인 데이터 저장을 위해 여러가지 저장 형식이 있습니다.

처음에는 TXT 형식으로 데이터를 저장하였지만, 데이터 저장공간과 처리 속도면에서 문제가 발생하면서 효율적인 처리 방식을 고민하게 되었습니다.


이때 클라우데라의 더그 커팅이 trevini, 호튼웍스의 오웬 오말리가 ORC 파일 포맷을 만들었습니다. ORC는 압축률이 높고, 스키마를 가지고 있으며, 처리속도가 빠르지만 하이브에서만 사용할 수 있었습니다(현재는 아님). 회사가 다르다 보니 통합된 형태로 발전하지 못하고 각각 발전하다 트위터에서 Parquet을 발표 했습니다. Parquet도 ORC와 유사하게 칼럼기반의 구조를 가지고 있습니다.


이제 ORC와 Parquet에 대해서 알아보겠습니다.

ORC

칼럼 기반 저장 포맷
하이브의 RC 파일을 개량하여 구현
파일의 풋터에 데이터의 스키마를 표현함

Parquet

ORC와 비슷하지만 구글의 드러멜(dremel)에 기반

풋터에 스키마를 저장
칼럼 기반의 저장

ORC는 Hive에 최적화된 형식이고, Parquet는 스파크에 최적화된 형식입니다.

따라서 자신의 상황에 맞게 최적화된 형식을 이용하는 것이 좋습니다.


File Format Benchmark - Avro, JSON, ORC & Parquet from DataWorks Summit/Hadoop Summit



big-data-file-formats-demystified - https://www.datanami.com/2018/05/16/big-data-file-formats-demystified/

반응형
저작자표시 비영리 (새창열림)

'빅데이터' 카테고리의 다른 글

[빅데이터 아키텍처] 멜론의 빅데이터 플랫폼  (0) 2020.01.29
[빅데이터] 아파치 피닉스(Apache Phoenix)  (0) 2019.08.01
[빅데이터] 실무자를 위한 빅데이터 #2 빅데이터 관련 기술(하둡 에코 시스템)  (0) 2018.05.03
[빅데이터] 실무자를 위한 빅데이터 #1 빅데이터 개요  (0) 2018.05.03
[빅데이터] 하둡 에코 시스템  (0) 2018.02.13
'빅데이터' 카테고리의 다른 글
  • [빅데이터 아키텍처] 멜론의 빅데이터 플랫폼
  • [빅데이터] 아파치 피닉스(Apache Phoenix)
  • [빅데이터] 실무자를 위한 빅데이터 #2 빅데이터 관련 기술(하둡 에코 시스템)
  • [빅데이터] 실무자를 위한 빅데이터 #1 빅데이터 개요
hs_seo
hs_seo
Hello World!
    반응형
  • hs_seo
    개발자로 살아남기
    hs_seo
  • 전체
    오늘
    어제
    • 전체 (1140)
      • 개발자 (21)
        • 개발에 유의할 점 (0)
        • 면접 (5)
      • IT 소식 (5)
        • 업계 (1)
      • java (51)
        • 디자인패턴 (3)
        • apache-common (1)
      • 개념 (47)
        • 자료구조 (4)
        • 함수형사고 (8)
        • 디자인패턴 (1)
      • 데이터분석 (1)
      • python (67)
        • 코드조각 (12)
        • 라이브러리 (2)
      • 빅데이터 (418)
        • zookeeper (5)
        • hadoop (78)
        • hdfs (12)
        • hive (127)
        • hbase (16)
        • spark (40)
        • scala (4)
        • trino (3)
        • oozie (41)
        • Hue (9)
        • R (5)
        • sqoop (6)
        • flume (3)
        • elasticsearch (2)
        • airflow (16)
        • kafka (3)
        • kubernetes (10)
        • openstack (3)
        • flink (2)
        • redis (2)
      • 빅데이터 강좌 (2)
      • 알고리즘 (131)
        • 알고리즘 (1)
        • 백준 (61)
        • 정올 (41)
        • 더블릿 (5)
        • 프로그래머스 (1)
      • 프로그래밍 언어 (30)
        • go (4)
        • js (9)
        • .Net (6)
        • Jsp (1)
        • ansible (3)
        • terraform (6)
      • Tools (56)
        • docker (2)
        • macbook (6)
        • maven (3)
        • sublime (1)
      • 프레임워크 (25)
        • [JS] angularjs (2)
        • [JS] node.js (19)
        • [Java] spring (2)
        • Android (2)
      • 데이타베이스 (43)
        • SQLD (5)
        • Oracle (1)
        • MySQL (8)
        • ADsP (2)
      • 리눅스 (25)
        • Bash (61)
      • GCP (5)
      • AWS (34)
        • EC2 (2)
        • EMR (14)
      • 정보보안기사 (4)
        • 네트워크 (1)
      • 개인 (80)
        • 업무실수 (0)
        • 책 (9)
        • 교육 (3)
        • 여행 (17)
        • 영화 (12)
        • 음악 (2)
        • 피규어 (4)
        • 게임 (3)
        • 생각 (7)
        • 기타 (10)
        • 좋은글 (5)
        • 좋은 사이트 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 미디어로그
    • 위치로그
    • 방명록
  • 링크

    • 빅데이터-하둡,하이브로 시작하기
    • 빅데이터-스칼라, 스파크로 시작하기
    • Kaggle에서 파이썬으로 데이터 분석 시작하기
    • 쉘스크립트 개발 시작하기
    • 개발자가 데이터 분석 준전문가 되기
    • 데브쿠마
  • 공지사항

  • 인기 글

  • 태그

    알고리즘
    error
    hbase
    nodejs
    java
    yarn
    ubuntu
    하이브
    bash
    HDFS
    airflow
    Python
    SPARK
    정올
    oozie
    k8s
    Tez
    mysql
    파이썬
    백준
    HIVE
    emr
    오류
    build
    Hadoop
    다이나믹
    AWS
    S3
    Linux
    하둡
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
hs_seo
[빅데이터] ORC와 Parquet 파일 저장 형식
상단으로

티스토리툴바