빅데이터는 효율적인 데이터 저장을 위해 여러가지 저장 형식이 있습니다.
처음에는 TXT 형식으로 데이터를 저장하였지만, 데이터 저장공간과 처리 속도면에서 문제가 발생하면서 효율적인 처리 방식을 고민하게 되었습니다.
이때 클라우데라의 더그 커팅이 trevini, 호튼웍스의 오웬 오말리가 ORC 파일 포맷을 만들었습니다. ORC는 압축률이 높고, 스키마를 가지고 있으며, 처리속도가 빠르지만 하이브에서만 사용할 수 있었습니다(현재는 아님). 회사가 다르다 보니 통합된 형태로 발전하지 못하고 각각 발전하다 트위터에서 Parquet을 발표 했습니다. Parquet도 ORC와 유사하게 칼럼기반의 구조를 가지고 있습니다.
이제 ORC와 Parquet에 대해서 알아보겠습니다.
ORC
칼럼 기반 저장 포맷
하이브의 RC 파일을 개량하여 구현
파일의 풋터에 데이터의 스키마를 표현함
하이브의 RC 파일을 개량하여 구현
파일의 풋터에 데이터의 스키마를 표현함
Parquet
ORC와 비슷하지만 구글의 드러멜(dremel)에 기반
풋터에 스키마를 저장
칼럼 기반의 저장
ORC는 Hive에 최적화된 형식이고, Parquet는 스파크에 최적화된 형식입니다.
따라서 자신의 상황에 맞게 최적화된 형식을 이용하는 것이 좋습니다.
big-data-file-formats-demystified - https://www.datanami.com/2018/05/16/big-data-file-formats-demystified/
반응형
'빅데이터' 카테고리의 다른 글
[빅데이터 아키텍처] 멜론의 빅데이터 플랫폼 (0) | 2020.01.29 |
---|---|
[빅데이터] 아파치 피닉스(Apache Phoenix) (0) | 2019.08.01 |
[빅데이터] 실무자를 위한 빅데이터 #2 빅데이터 관련 기술(하둡 에코 시스템) (0) | 2018.05.03 |
[빅데이터] 실무자를 위한 빅데이터 #1 빅데이터 개요 (0) | 2018.05.03 |
[빅데이터] 하둡 에코 시스템 (0) | 2018.02.13 |