[빅데이터] 실무자를 위한 빅데이터 #2 빅데이터 관련 기술(하둡 에코 시스템)

2018. 5. 3. 22:54·빅데이터

빅데이터 관련 기술

빅데이터는 수집, 정제, 적재, 분석의 단계를 거치면서 다양한 기술을 이용하여 처리 된다.

eco

Hadoop

  • HDFS, Mapreduce로 구성된 빅데이터 처리 기술
  • 자바로 구현된 대규모 분산처리를 위한 오픈소스 프레임워크

HBase

  • HDFS 기반의 칼럼 기반 데이터베이스
    • HDFS 위에서 동작하는 NoSQL 데이터 베이스
  • 실시간 조회 및 업데이트 가능
  • https://hbase.apache.org/
    hbase(main):003:0> describe 'test'
    Table test is ENABLED
    test
    COLUMN FAMILIES DESCRIPTION
    {NAME => 'cf', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false', NEW_VERSION_BEHAVIOR => 'false', KEEP_DELETED_CELLS => 'FALSE', CACHE_DATA_ON_WRITE =>
    'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', MIN_VERSIONS => '0', REPLICATION_SCOPE => '0', BLOOMFILTER => 'ROW', CACHE_INDEX_ON_WRITE => 'f
    alse', IN_MEMORY => 'false', CACHE_BLOOMS_ON_WRITE => 'false', PREFETCH_BLOCKS_ON_OPEN => 'false', COMPRESSION => 'NONE', BLOCKCACHE => 'true', BLOCKSIZE
    => '65536'}
    1 row(s)
    Took 0.9998 seconds
    

Pig

  • 복잡한 맵리듀스 프로그래밍을 대체할 Pig Latin이라는 자체 언어 제공
  • 맵리듀스 API를 크게 단순화함
  • SQL과 유사한 형태
  • http://pig.apache.org/
    A = LOAD 'student' USING PigStorage() AS (name:chararray, age:int, gpa:float);
    B = FOREACH A GENERATE name;
    DUMP B;</code></pre>
    

Hive

  • HDFS위에서 동작하는 데이터웨어하우징용 솔루션
  • SQL과 매우 유사한 HiveQL 쿼리 제공
    • 내부적으로맵리듀스 잡으로 변환되어 실행
  • 자바를 모르는 데이터 분석가들도 쉽게 하둡 데이터를 분석할 수 있게 도와줌
  • 짧은 임시쿼리보다는 일괄적인 MapReduce처리에 이상적임
  • https://hive.apache.org/
    hive> SELECT DISTINCT col1, col2 FROM t1;
      1 3
      1 4
      2 5
    

Mahout

  • 하둡 기반의 기계학습(Machine Learning) 프레임워크
  • Java/Scala 로 필요한 프로그램을 구현 처리
  • https://mahout.apache.org/https://mahout.apache.org/)

Hcatalog

  • 하둡으로 생성한 데이터를 위한 테이블 및 스토리지 관리서비스
  • Hcatalog의 이용으로 Hive에서 생성한 테이블이나 데이터 모델을 Pig나 맵리듀스에서 손쉽게 이용할 수 있음
  • https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

Avro

  • RPC(Remote Procedure Call)과 데이터 직렬화를 지원
  • JSON을 이용해 데이터 형식과 프로토콜을 정의
  • 작고 빠른 바이너리 포맷으로 데이터를 직렬화
  • https://avro.apache.org/

Flume

  • 분산된 서버에서 데이터를 수집하는 도구
  • 병렬적으로 분산처리하면서 수집 가능
  • https://flume.apache.org/

Sqoop

  • 대용량 데이터 전송 솔루션
  • HDFS, RDBMS, DW, NoSQL 등 다양한 저장소에 대용량 데이터를 신속하게 전송할 수 있는 방법 제공
  • 상용RDBMS도 지원하고, MySQL, PostgreSQL 오픈소스 RDBMS도 지원함
  • http://sqoop.apache.org/

Zookeeper

분산 환경에서 서버 간의 상호 조정이 필요한 서비스를 제공

  • Active 서버에 문제가 발생시 대기중인 서버로 변경하여 고가용성 제공
  • 서버간 서비스의 로드 밸런싱, 처리 결과에 대한 동기화로 데이터 안정성 보장
  • http://zookeeper.apache.org/

Oozie

  • 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
  • 자바 웹 애플리케이션 서버로 UI 제공
  • 맵리듀스 작업이나 hive, pig 작업 같은 특화된 액션으로 구성된 XML 포맷의 워크플로우 제어
  • https://oozie.apache.org/

드루이드

  • 고성능 칼럼 기반의 데이터 저장소
  • 대화형 쿼리 지원
  • 실시간 스트림 처리
  • 수평적 확장(scalable), 범용 하드웨어 가능
  • http://druid.io/
반응형
저작자표시 비영리 (새창열림)

'빅데이터' 카테고리의 다른 글

[빅데이터] 아파치 피닉스(Apache Phoenix)  (0) 2019.08.01
[빅데이터] ORC와 Parquet 파일 저장 형식  (0) 2019.02.19
[빅데이터] 실무자를 위한 빅데이터 #1 빅데이터 개요  (0) 2018.05.03
[빅데이터] 하둡 에코 시스템  (0) 2018.02.13
[개념] 빅데이터  (0) 2017.12.20
'빅데이터' 카테고리의 다른 글
  • [빅데이터] 아파치 피닉스(Apache Phoenix)
  • [빅데이터] ORC와 Parquet 파일 저장 형식
  • [빅데이터] 실무자를 위한 빅데이터 #1 빅데이터 개요
  • [빅데이터] 하둡 에코 시스템
hs_seo
hs_seo
Hello World!
    반응형
  • hs_seo
    개발자로 살아남기
    hs_seo
  • 전체
    오늘
    어제
    • 전체 (1140)
      • 개발자 (21)
        • 개발에 유의할 점 (0)
        • 면접 (5)
      • IT 소식 (5)
        • 업계 (1)
      • java (51)
        • 디자인패턴 (3)
        • apache-common (1)
      • 개념 (47)
        • 자료구조 (4)
        • 함수형사고 (8)
        • 디자인패턴 (1)
      • 데이터분석 (1)
      • python (67)
        • 코드조각 (12)
        • 라이브러리 (2)
      • 빅데이터 (418)
        • zookeeper (5)
        • hadoop (78)
        • hdfs (12)
        • hive (127)
        • hbase (16)
        • spark (40)
        • scala (4)
        • trino (3)
        • oozie (41)
        • Hue (9)
        • R (5)
        • sqoop (6)
        • flume (3)
        • elasticsearch (2)
        • airflow (16)
        • kafka (3)
        • kubernetes (10)
        • openstack (3)
        • flink (2)
        • redis (2)
      • 빅데이터 강좌 (2)
      • 알고리즘 (131)
        • 알고리즘 (1)
        • 백준 (61)
        • 정올 (41)
        • 더블릿 (5)
        • 프로그래머스 (1)
      • 프로그래밍 언어 (30)
        • go (4)
        • js (9)
        • .Net (6)
        • Jsp (1)
        • ansible (3)
        • terraform (6)
      • Tools (56)
        • docker (2)
        • macbook (6)
        • maven (3)
        • sublime (1)
      • 프레임워크 (25)
        • [JS] angularjs (2)
        • [JS] node.js (19)
        • [Java] spring (2)
        • Android (2)
      • 데이타베이스 (43)
        • SQLD (5)
        • Oracle (1)
        • MySQL (8)
        • ADsP (2)
      • 리눅스 (25)
        • Bash (61)
      • GCP (5)
      • AWS (34)
        • EC2 (2)
        • EMR (14)
      • 정보보안기사 (4)
        • 네트워크 (1)
      • 개인 (80)
        • 업무실수 (0)
        • 책 (9)
        • 교육 (3)
        • 여행 (17)
        • 영화 (12)
        • 음악 (2)
        • 피규어 (4)
        • 게임 (3)
        • 생각 (7)
        • 기타 (10)
        • 좋은글 (5)
        • 좋은 사이트 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 미디어로그
    • 위치로그
    • 방명록
  • 링크

    • 빅데이터-하둡,하이브로 시작하기
    • 빅데이터-스칼라, 스파크로 시작하기
    • Kaggle에서 파이썬으로 데이터 분석 시작하기
    • 쉘스크립트 개발 시작하기
    • 개발자가 데이터 분석 준전문가 되기
    • 데브쿠마
  • 공지사항

  • 인기 글

  • 태그

    Python
    파이썬
    error
    hbase
    bash
    하둡
    Hadoop
    오류
    mysql
    k8s
    nodejs
    Tez
    알고리즘
    다이나믹
    HIVE
    oozie
    정올
    airflow
    ubuntu
    백준
    SPARK
    emr
    HDFS
    Linux
    build
    yarn
    S3
    java
    AWS
    하이브
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
hs_seo
[빅데이터] 실무자를 위한 빅데이터 #2 빅데이터 관련 기술(하둡 에코 시스템)
상단으로

티스토리툴바