본문 바로가기
빅데이터

[빅데이터] 실무자를 위한 빅데이터 #2 빅데이터 관련 기술(하둡 에코 시스템)

by hs_seo 2018. 5. 3.

빅데이터 관련 기술

빅데이터는 수집, 정제, 적재, 분석의 단계를 거치면서 다양한 기술을 이용하여 처리 된다.

eco

Hadoop

  • HDFS, Mapreduce로 구성된 빅데이터 처리 기술
  • 자바로 구현된 대규모 분산처리를 위한 오픈소스 프레임워크

HBase

  • HDFS 기반의 칼럼 기반 데이터베이스
    • HDFS 위에서 동작하는 NoSQL 데이터 베이스
  • 실시간 조회 및 업데이트 가능
  • https://hbase.apache.org/
    hbase(main):003:0> describe 'test'
    Table test is ENABLED
    test
    COLUMN FAMILIES DESCRIPTION
    {NAME => 'cf', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false', NEW_VERSION_BEHAVIOR => 'false', KEEP_DELETED_CELLS => 'FALSE', CACHE_DATA_ON_WRITE =>
    'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', MIN_VERSIONS => '0', REPLICATION_SCOPE => '0', BLOOMFILTER => 'ROW', CACHE_INDEX_ON_WRITE => 'f
    alse', IN_MEMORY => 'false', CACHE_BLOOMS_ON_WRITE => 'false', PREFETCH_BLOCKS_ON_OPEN => 'false', COMPRESSION => 'NONE', BLOCKCACHE => 'true', BLOCKSIZE
    => '65536'}
    1 row(s)
    Took 0.9998 seconds
    

Pig

  • 복잡한 맵리듀스 프로그래밍을 대체할 Pig Latin이라는 자체 언어 제공
  • 맵리듀스 API를 크게 단순화함
  • SQL과 유사한 형태
  • http://pig.apache.org/
    A = LOAD 'student' USING PigStorage() AS (name:chararray, age:int, gpa:float);
    B = FOREACH A GENERATE name;
    DUMP B;</code></pre>
    

Hive

  • HDFS위에서 동작하는 데이터웨어하우징용 솔루션
  • SQL과 매우 유사한 HiveQL 쿼리 제공
    • 내부적으로맵리듀스 잡으로 변환되어 실행
  • 자바를 모르는 데이터 분석가들도 쉽게 하둡 데이터를 분석할 수 있게 도와줌
  • 짧은 임시쿼리보다는 일괄적인 MapReduce처리에 이상적임
  • https://hive.apache.org/
    hive> SELECT DISTINCT col1, col2 FROM t1;
      1 3
      1 4
      2 5
    

Mahout

Hcatalog

Avro

  • RPC(Remote Procedure Call)과 데이터 직렬화를 지원
  • JSON을 이용해 데이터 형식과 프로토콜을 정의
  • 작고 빠른 바이너리 포맷으로 데이터를 직렬화
  • https://avro.apache.org/

Flume

  • 분산된 서버에서 데이터를 수집하는 도구
  • 병렬적으로 분산처리하면서 수집 가능
  • https://flume.apache.org/

Sqoop

  • 대용량 데이터 전송 솔루션
  • HDFS, RDBMS, DW, NoSQL 등 다양한 저장소에 대용량 데이터를 신속하게 전송할 수 있는 방법 제공
  • 상용RDBMS도 지원하고, MySQL, PostgreSQL 오픈소스 RDBMS도 지원함
  • http://sqoop.apache.org/

Zookeeper

분산 환경에서 서버 간의 상호 조정이 필요한 서비스를 제공

  • Active 서버에 문제가 발생시 대기중인 서버로 변경하여 고가용성 제공
  • 서버간 서비스의 로드 밸런싱, 처리 결과에 대한 동기화로 데이터 안정성 보장
  • http://zookeeper.apache.org/

Oozie

  • 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
  • 자바 웹 애플리케이션 서버로 UI 제공
  • 맵리듀스 작업이나 hive, pig 작업 같은 특화된 액션으로 구성된 XML 포맷의 워크플로우 제어
  • https://oozie.apache.org/

드루이드

  • 고성능 칼럼 기반의 데이터 저장소
  • 대화형 쿼리 지원
  • 실시간 스트림 처리
  • 수평적 확장(scalable), 범용 하드웨어 가능
  • http://druid.io/
반응형