본문 바로가기
빅데이터

[빅데이터] ORC와 Parquet 파일 저장 형식

by hs_seo 2019. 2. 19.

빅데이터는 효율적인 데이터 저장을 위해 여러가지 저장 형식이 있습니다.

처음에는 TXT 형식으로 데이터를 저장하였지만, 데이터 저장공간과 처리 속도면에서 문제가 발생하면서 효율적인 처리 방식을 고민하게 되었습니다.


이때 클라우데라의 더그 커팅이 trevini, 호튼웍스의 오웬 오말리가 ORC 파일 포맷을 만들었습니다. ORC는 압축률이 높고, 스키마를 가지고 있으며, 처리속도가 빠르지만 하이브에서만 사용할 수 있었습니다(현재는 아님). 회사가 다르다 보니 통합된 형태로 발전하지 못하고 각각 발전하다 트위터에서 Parquet을 발표 했습니다. Parquet도 ORC와 유사하게 칼럼기반의 구조를 가지고 있습니다.


이제 ORC와 Parquet에 대해서 알아보겠습니다.

ORC

칼럼 기반 저장 포맷
하이브의 RC 파일을 개량하여 구현
파일의 풋터에 데이터의 스키마를 표현함

Parquet

ORC와 비슷하지만 구글의 드러멜(dremel)에 기반

풋터에 스키마를 저장
칼럼 기반의 저장

ORC는 Hive에 최적화된 형식이고, Parquet는 스파크에 최적화된 형식입니다.

따라서 자신의 상황에 맞게 최적화된 형식을 이용하는 것이 좋습니다.




big-data-file-formats-demystified - https://www.datanami.com/2018/05/16/big-data-file-formats-demystified/

반응형