본문 바로가기
빅데이터/hadoop

[개념] HCatalog, HCatalog Server

by hs_seo 2017. 11. 28.
HCatalog는 하이브 0.11.0 버전에 통합되었습니다. [바로가기] HCatalog Server는 Hive Metastore와 같습니다. 따라서 EMR의 경우 hive-hcatalog-server 로 실행되는 프로세스가 하이브 메타스토어 입니다.


개요


HCatalog는 하둡 에코 시스템의 데이터 처리 도구(Pig, MR, Hive)들 간의 테이블, 저장공간 관리 계층을 제공한다.
HDFS 상의 파일들에 대한 추상계층을 제공하여, 사용자가 데이터의 위치, 저장 형태에 대하여 신경쓰지 않아도 되도록 제공한다.

 

HCatalog는 파일을 읽고, 쓰기 위한 SerDe 를 제공한다. RCFile, CSV, JSON, SequenceFile, ORC 포맷을 지원한다.
사용자가 커스텀 포맷을 생성하여 처리할 수도 있다.

 


구조

HCatalog 는 하이브 메타스토어 위에 정의 되고, 하이브의 DDL을 공유한다.
Pig와 MR에게 읽기 쓰기를 위한 인터페이스를 제공한다. 하이브의 CLI 를 이용하여 데이터 정의와 메타데이터 정의를 한다.

 

- 인터페이스
Pig 를 위해서 load, store 가 구현되어 있는, HCatLoader, HCatStore 를 제공한다.
MR 을 위해서 HCatInputFormat, HcatOutputFormat 을 제공한다.

 

HCatalog - https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat 

 

* Hcatalog 는 Hive 와 함께 사용하며 Hive 의 데이터를 다른 시스템이 일반적인 파일 인것처럼 사용할 수 있도록 환경을 제공해 주는 것 같다.

** 파티션이 생성되면 JMS 를 통해 메시지를 전달할 수 있다.



반응형