빅데이터 강좌2 [빅데이터/강좌] 실무자가 알아야 할 하둡 #2.구조 하둡의 구조 하둡은 크게 분산저장과 병렬처리 프레임워크로 나눌수 있다. 분산저장(HDFS) 분산저장은 마스터 슬레이브 구조로 구성되는 네임노드와 데이터노드로 처리 한다. 하나의 네임노드에 다수의 데이터 노드로 구성되고, 각각의 노드는 다음과 같은 역활을 한다. 네임노드(Namenode) 데이터 노드 관리 메타데이터 관리 디렉토리, 파일 정보 관리 블록과 디렉토리간 매핑 정보 관리 파일 시스템의 관리를 위해 fsimage와 edits 를 이용 데이타노드 데이터 파일을 블록단위로 나누어서 저장 체크포인트 노드, 세컨더리 네임노드 fsimage와 edits를 주기적으로 체크하여 체크포인트를 생성하고 이를 이용하여 파일의 수정사항을 관리 체크포인트 노드는 fsimage를 네임노드에 업로드 하고, 세컨더리 네임노.. 2018. 5. 16. [빅데이터/강좌] 실무자가 알아야 할 하둡 #1.개요 하둡 자바로 구현된 대규모 분산처리를 위한 오픈소스 프레임워크야후의 더그 커팅이 '넛치'라는 검색엔진을 개발하는 과정에서 개발 비정형 데이터를 RDB에서 처리하기에는 사이즈가 커서 새로운 기술이 필요하게 됨 구글에서 발표한 GFS와 MapReduce 관련 논문을 참고하여 개발 하둡의 구성 분산저장(HDFS:Hadoop Distributed File System), 병렬처리(MapReduce) 프레임워크로 구성 분산저장 여러개의 서버를 하나의 서버처럼 묶어서 데이터를 저장 병렬처리 분산되어 저장된 데이터를 데이터가 존재하는 위치에서 동시에 처리 하둡의 장단점 장점 오픈소스로 라이선스에 대한 비용 부담이 적음 시스템을 중단하지 않고, 장비의 추가가 용이(Scale Out) 일부 장비에 장애가 발생하더라도 전.. 2018. 5. 14. 이전 1 다음