하둡

2013. 8. 13. 17:52·개념

하둡이란?

 

하둡은 클러스터 환경에서 대량의 자료를 처리할 수 있는 자바로 작성 된 오픈 소스 프레임워크 이다.

구글의 분산처리 시스템인 구글 파일 시스템(GFS)의 영향을 받아서 하둡 분산 파일 시스템(HDFS)과 파일 분석을 위한 맵리듀스를 구현하였다.

 

하둡의 특징

로그, 텍스트, 이미지 등의 비정형 데이터를 다루는데 유리하게 되어 있다.

실시간 처리보다는 배치처리에 적합하다.

 

 

하둡의 구조

하둡의 분산 파일 시스템은 네임노드(Namenode), 데이타노드(Datanode)로 구성된다.

네임노드가 마스터이고 데이타노드가 슬레이브이다.

네임노드가 데이타노드의 위치를 메타데이터로 관리하고 있으며, 네임노드에 이상이 생길 경우 시스템에 문제가 발생 할 수 있기 때문에 세컨더리네임노드(Secondary Name Node)가 존재한다.

데이타노드의 정보는 분산 환경에 유리하도록 블록 단위로 관리된다. 기본적으로 64Mb 단위로 나누어 진다.

하둡에 데이터가 저장될 때 데이타노드의 데이터는 3군데에 동일한 데이터를 복사하여 저장된다. 이는 하둡이 기본적으로 시스템의 오류 상황에 대처할 수 있게 설계되었기 때문이다.

 

맵리듀스는 잡트래커(JobTracker)와 태스크트래커(TaskTracker)로 구성된다.

잡트래커가 마스터이고 태스크트래커가 슬레이브이다.

잡트래커가 사용자의 명령을 받아서 데이터를 분석하기 위한 잡을 생성하고, 이를 태스크트래커에게 알려서 작업을 처리하게 한다. 태스크 트래커는 로컬의 파일, DB 정보 등을 이용하여 데이터를 분석하게 된다. 이 과정에서 데이타노드의 데이터를 이용한다.

 

 

하둡의 서브 프로젝트

하둡에는 여러가지 서브프로젝트가 존재한다.

 

Hive

하이브는 맵리듀스를 SQL과 유사한 HiveQL을 이용하여 처리할 수 있게 도와주는 프로젝트이다.

사용자는 쿼리문을 이용하여 맵리듀스를 실행하고, 이 결과가 하둡에 파일로 저장되는 형식이다.

 

Sqoop

RDBMS와 데이터 연계를 위한 프로젝트이다. 오라클 테이블의 정보를 파일로 추출하고 이를 하둡에 관리하거나 그 반대의 기능을 처리한다.

 

Flume

서버의 로그를 실시간으로 집계하기 위한 프로젝트이다.

 

 

참고자료

마이크로소프트웨어 - http://www.imaso.co.kr/?doc=bbs/gnuboard.php&bo_table=article&wr_id=40766 

하둡 정리 - http://petrus-clelab.iptime.org:8012/wordpress/wp-content/uploads/2012/06/Hadoop_Guide_ext1.pdf

 

 

반응형
저작자표시 비영리 (새창열림)

'개념' 카테고리의 다른 글

NoSQL  (0) 2013.08.14
BI(Business Intelligence)  (0) 2013.08.14
아마존 AWS, EC2, EMR, S3 소개  (0) 2013.07.02
[개념] OLTP, OLAP, Data Warehouse, Data Mart  (1) 2013.06.19
Apache vs Tomcat  (0) 2013.06.19
'개념' 카테고리의 다른 글
  • NoSQL
  • BI(Business Intelligence)
  • 아마존 AWS, EC2, EMR, S3 소개
  • [개념] OLTP, OLAP, Data Warehouse, Data Mart
hs_seo
hs_seo
Hello World!
    반응형
  • hs_seo
    개발자로 살아남기
    hs_seo
  • 전체
    오늘
    어제
    • 전체 (1140)
      • 개발자 (21)
        • 개발에 유의할 점 (0)
        • 면접 (5)
      • IT 소식 (5)
        • 업계 (1)
      • java (51)
        • 디자인패턴 (3)
        • apache-common (1)
      • 개념 (47)
        • 자료구조 (4)
        • 함수형사고 (8)
        • 디자인패턴 (1)
      • 데이터분석 (1)
      • python (67)
        • 코드조각 (12)
        • 라이브러리 (2)
      • 빅데이터 (418)
        • zookeeper (5)
        • hadoop (78)
        • hdfs (12)
        • hive (127)
        • hbase (16)
        • spark (40)
        • scala (4)
        • trino (3)
        • oozie (41)
        • Hue (9)
        • R (5)
        • sqoop (6)
        • flume (3)
        • elasticsearch (2)
        • airflow (16)
        • kafka (3)
        • kubernetes (10)
        • openstack (3)
        • flink (2)
        • redis (2)
      • 빅데이터 강좌 (2)
      • 알고리즘 (131)
        • 알고리즘 (1)
        • 백준 (61)
        • 정올 (41)
        • 더블릿 (5)
        • 프로그래머스 (1)
      • 프로그래밍 언어 (30)
        • go (4)
        • js (9)
        • .Net (6)
        • Jsp (1)
        • ansible (3)
        • terraform (6)
      • Tools (56)
        • docker (2)
        • macbook (6)
        • maven (3)
        • sublime (1)
      • 프레임워크 (25)
        • [JS] angularjs (2)
        • [JS] node.js (19)
        • [Java] spring (2)
        • Android (2)
      • 데이타베이스 (43)
        • SQLD (5)
        • Oracle (1)
        • MySQL (8)
        • ADsP (2)
      • 리눅스 (25)
        • Bash (61)
      • GCP (5)
      • AWS (34)
        • EC2 (2)
        • EMR (14)
      • 정보보안기사 (4)
        • 네트워크 (1)
      • 개인 (80)
        • 업무실수 (0)
        • 책 (9)
        • 교육 (3)
        • 여행 (17)
        • 영화 (12)
        • 음악 (2)
        • 피규어 (4)
        • 게임 (3)
        • 생각 (7)
        • 기타 (10)
        • 좋은글 (5)
        • 좋은 사이트 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 미디어로그
    • 위치로그
    • 방명록
  • 링크

    • 빅데이터-하둡,하이브로 시작하기
    • 빅데이터-스칼라, 스파크로 시작하기
    • Kaggle에서 파이썬으로 데이터 분석 시작하기
    • 쉘스크립트 개발 시작하기
    • 개발자가 데이터 분석 준전문가 되기
    • 데브쿠마
  • 공지사항

  • 인기 글

  • 태그

    하둡
    SPARK
    S3
    error
    Hadoop
    Linux
    k8s
    HDFS
    mysql
    ubuntu
    AWS
    HIVE
    오류
    파이썬
    hbase
    정올
    하이브
    oozie
    다이나믹
    airflow
    emr
    java
    build
    Python
    백준
    알고리즘
    bash
    yarn
    Tez
    nodejs
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
hs_seo
하둡
상단으로

티스토리툴바