[개념] HCatalog, HCatalog Server

2017. 11. 28. 16:11·빅데이터/hadoop
HCatalog는 하이브 0.11.0 버전에 통합되었습니다. [바로가기] HCatalog Server는 Hive Metastore와 같습니다. 따라서 EMR의 경우 hive-hcatalog-server 로 실행되는 프로세스가 하이브 메타스토어 입니다.


개요


HCatalog는 하둡 에코 시스템의 데이터 처리 도구(Pig, MR, Hive)들 간의 테이블, 저장공간 관리 계층을 제공한다.
HDFS 상의 파일들에 대한 추상계층을 제공하여, 사용자가 데이터의 위치, 저장 형태에 대하여 신경쓰지 않아도 되도록 제공한다.

 

HCatalog는 파일을 읽고, 쓰기 위한 SerDe 를 제공한다. RCFile, CSV, JSON, SequenceFile, ORC 포맷을 지원한다.
사용자가 커스텀 포맷을 생성하여 처리할 수도 있다.

 


구조

HCatalog 는 하이브 메타스토어 위에 정의 되고, 하이브의 DDL을 공유한다.
Pig와 MR에게 읽기 쓰기를 위한 인터페이스를 제공한다. 하이브의 CLI 를 이용하여 데이터 정의와 메타데이터 정의를 한다.

 

- 인터페이스
Pig 를 위해서 load, store 가 구현되어 있는, HCatLoader, HCatStore 를 제공한다.
MR 을 위해서 HCatInputFormat, HcatOutputFormat 을 제공한다.

 

HCatalog - https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat 

 

* Hcatalog 는 Hive 와 함께 사용하며 Hive 의 데이터를 다른 시스템이 일반적인 파일 인것처럼 사용할 수 있도록 환경을 제공해 주는 것 같다.

** 파티션이 생성되면 JMS 를 통해 메시지를 전달할 수 있다.



반응형
저작자표시 비영리 (새창열림)

'빅데이터 > hadoop' 카테고리의 다른 글

[hadoop] yarn 아키텍처  (0) 2018.01.16
[hadoop] hadoop1, 2, 3의 특징 및 장단점  (0) 2017.12.21
[hadoop] MR과 TEZ의 차이  (0) 2017.10.24
[hadoop] 하둡 커패시티 스케줄러(capacity-scheduler)  (0) 2017.10.18
[hadoop] 맵리듀스의 맵퍼 리듀서 개수 설정하기  (1) 2017.09.21
'빅데이터/hadoop' 카테고리의 다른 글
  • [hadoop] yarn 아키텍처
  • [hadoop] hadoop1, 2, 3의 특징 및 장단점
  • [hadoop] MR과 TEZ의 차이
  • [hadoop] 하둡 커패시티 스케줄러(capacity-scheduler)
hs_seo
hs_seo
Hello World!
    반응형
  • hs_seo
    개발자로 살아남기
    hs_seo
  • 전체
    오늘
    어제
    • 전체 (1140)
      • 개발자 (21)
        • 개발에 유의할 점 (0)
        • 면접 (5)
      • IT 소식 (5)
        • 업계 (1)
      • java (51)
        • 디자인패턴 (3)
        • apache-common (1)
      • 개념 (47)
        • 자료구조 (4)
        • 함수형사고 (8)
        • 디자인패턴 (1)
      • 데이터분석 (1)
      • python (67)
        • 코드조각 (12)
        • 라이브러리 (2)
      • 빅데이터 (418)
        • zookeeper (5)
        • hadoop (78)
        • hdfs (12)
        • hive (127)
        • hbase (16)
        • spark (40)
        • scala (4)
        • trino (3)
        • oozie (41)
        • Hue (9)
        • R (5)
        • sqoop (6)
        • flume (3)
        • elasticsearch (2)
        • airflow (16)
        • kafka (3)
        • kubernetes (10)
        • openstack (3)
        • flink (2)
        • redis (2)
      • 빅데이터 강좌 (2)
      • 알고리즘 (131)
        • 알고리즘 (1)
        • 백준 (61)
        • 정올 (41)
        • 더블릿 (5)
        • 프로그래머스 (1)
      • 프로그래밍 언어 (30)
        • go (4)
        • js (9)
        • .Net (6)
        • Jsp (1)
        • ansible (3)
        • terraform (6)
      • Tools (56)
        • docker (2)
        • macbook (6)
        • maven (3)
        • sublime (1)
      • 프레임워크 (25)
        • [JS] angularjs (2)
        • [JS] node.js (19)
        • [Java] spring (2)
        • Android (2)
      • 데이타베이스 (43)
        • SQLD (5)
        • Oracle (1)
        • MySQL (8)
        • ADsP (2)
      • 리눅스 (25)
        • Bash (61)
      • GCP (5)
      • AWS (34)
        • EC2 (2)
        • EMR (14)
      • 정보보안기사 (4)
        • 네트워크 (1)
      • 개인 (80)
        • 업무실수 (0)
        • 책 (9)
        • 교육 (3)
        • 여행 (17)
        • 영화 (12)
        • 음악 (2)
        • 피규어 (4)
        • 게임 (3)
        • 생각 (7)
        • 기타 (10)
        • 좋은글 (5)
        • 좋은 사이트 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 미디어로그
    • 위치로그
    • 방명록
  • 링크

    • 빅데이터-하둡,하이브로 시작하기
    • 빅데이터-스칼라, 스파크로 시작하기
    • Kaggle에서 파이썬으로 데이터 분석 시작하기
    • 쉘스크립트 개발 시작하기
    • 개발자가 데이터 분석 준전문가 되기
    • 데브쿠마
  • 공지사항

  • 인기 글

  • 태그

    파이썬
    HIVE
    정올
    Linux
    oozie
    error
    build
    하이브
    k8s
    오류
    mysql
    Hadoop
    HDFS
    emr
    hbase
    하둡
    Python
    S3
    nodejs
    다이나믹
    Tez
    bash
    airflow
    AWS
    yarn
    SPARK
    java
    ubuntu
    백준
    알고리즘
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
hs_seo
[개념] HCatalog, HCatalog Server
상단으로

티스토리툴바