본문 바로가기

Hadoop64

[하둡 2.x] 커패시티 스케줄러(capacity-scheduler.xml) 설정하기 hadoop 2.x 버전 capacity-scheduler.xml 설정방법 하둡은 커패시티 스케줄러를 이용하여, 자원을 효율적으로 분산하여 사용하게 할 수 있다. 계층형 큐를 이용하여 작업을 분산하여 처리할 수 있도록 설정할 수 있다. 큐는 트리구조로 생성되며 최상위 계층은 root 이다. root 아래에 기본적으로 default 큐가 생성되어 있고, 사용자가 큐를 추가할 수 있다. yarn.scheduler.capacity.root.queues queue_name1,queue_name2,default 아래와 같이 설정하여 큐에 할당 할 수 있는 최대의 자원을 % 로 설정한다. 그 외 나머지 설정을 [큐이름]을 지정하여 할당 하면 된다. yarn.scheduler.capacity.root.[큐이름].ca.. 2015. 1. 27.
우지 4.0 의 특징 Oozie 4.0 특징 1. HCatalog Integration - HCatalog 데이터셋 지원, 파티션 생성에 대한 알림 지원 - 데이터 존재여부를 HCatalog 를 이용하여 확인 가능 2. Job Notifications - JMS 를 통한 상태 변경알림 지원 - 사용자가 지정한 메시지를 알림 지원 3. SLA 모니터링 - SLA 수준 모니터링 정보 제공 - 웹콘솔, REST Api, JMS, Email 을 이용한 정보 제공 - coord, workflow, workflow action 단위로 시작시간, 종료시간에 따른 처리 상황 모니터링, 이메일 알림 기능 참고 우지4 특징 - http://www.slideshare.net/ydn/hadoop-meetup-hug-october-2013-oozi.. 2015. 1. 6.
[hive] 조회 조건에 정규식 이용하기 하이브 데이터 조회 조건을 정규식을 이용하여 분리하는 방법은 다음과 같다. select 칼럼명 from 테이블명 where 칼럼명 rlike '^[a-zA-Z0-9]*$'; 조회 쿼리에 rlike 를 이용하면 된다. regexp 로 대체하여도 동일한 결과를 출력한다. 정규식은 java 에서 사용하는 정규식과 동일하다. 위의 조회에 사용된 표현식은 처음[^] 부터 끝[$] 까지 영문 대소문자와 숫자 의 반복[*]으로 표현된 문자열만 찾는 쿼리이다. https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 2014. 12. 26.
하둡 하둡이란? 하둡은 클러스터 환경에서 대량의 자료를 처리할 수 있는 자바로 작성 된 오픈 소스 프레임워크 이다. 구글의 분산처리 시스템인 구글 파일 시스템(GFS)의 영향을 받아서 하둡 분산 파일 시스템(HDFS)과 파일 분석을 위한 맵리듀스를 구현하였다. 하둡의 특징 로그, 텍스트, 이미지 등의 비정형 데이터를 다루는데 유리하게 되어 있다. 실시간 처리보다는 배치처리에 적합하다. 하둡의 구조 하둡의 분산 파일 시스템은 네임노드(Namenode), 데이타노드(Datanode)로 구성된다. 네임노드가 마스터이고 데이타노드가 슬레이브이다. 네임노드가 데이타노드의 위치를 메타데이터로 관리하고 있으며, 네임노드에 이상이 생길 경우 시스템에 문제가 발생 할 수 있기 때문에 세컨더리네임노드(Secondary Name.. 2013. 8. 13.