하둡의 기본 명령어 사용 팁 mkdir 지정한 디렉토리를 만들어 주는 mkdir 명령에는 –p 옵션이 있다. -p 옵션을 사용하면 주어진 경로의 디렉토리를 만들 때 상위 디렉토리부터 하위 디렉토리까지 모두 만들어 준다. mkdir 의 옵션 hadoop fs [generic options] -mkdir [-p] ... Hadoop fs –mkdir –p /dir1/dir2/dir3 명령어 사용시 mkdir: `/dir1/dir2/dir3: No such file or directory 오류가 발생하면 –p 옵션을 사용하여 디렉토리를 생성하도록 하자.
블로그나 카페에 소스코드를 올릴 때 그냥 플레인 텍스트를 올리는 것 보다 에디터에서 제공하는 것 처럼 문법을 강조해서 올리면 보기가 더 편하다. 이때 문법 강조를 도와주는 방식이 여러가지가 있는데, 하나는 자바스크립트를 이용해서 올려진 코드를 후처리해서 보는 방법이 있고, 다른 하나는 코드를 HTML 로 변환하여 적용하는 방법이 있다. 자바스크립트를 이용한 처리는 , 등의 태그로 코드를 감싼후 코드가 로딩되는 시점에 사용자 단에서 처리해서 보여주는 방식이다. 가장 많이 사용되는 코드가 다음 링크의 코드이다. Alex Gorbatchev - http://alexgorbatchev.com/SyntaxHighlighter/manual/installation.html installation 의 코드를 따라가면 ..
- 프로그램을 실행시켜 완료하는데 걸리는 시간 - 알고리즘의 일반적인 시간 복잡도는 명령어의 실행 횟수를 고려한다. n for 문을 반복한 횟수, 일반 연산을 처리한 횟수 등의 합에서 상수는 제외하고 최고차항만 생각 시간 이름 bit 별 처리 시간 1 상수형 1, 1, 1, 1, 1, 1 log n 로그형 0, 1, 2, 3, 4, 5 n 선형 1, 2, 4, 8, 16, 32 n log n 선형 로그형 0, 2, 8, 24, 64, 160 n^2 평방형 1, 4, 16, 64, 256, 1024 2^n 지수형 2, 4, 16, 256 n! 계승형 1, 2, 24, 40326 - 로그형 < 선형 < 선형 로그형 < 평방형 순으로 갈수록 복잡해진다. - 빅오[O(N)]: 알고리즘 실행시간의 상한을 나타내는..
@클로저함수 함수안에 또다른 함수가 선언되어 반환되는 것을 클로저 함수라고 한다. - 전역변수를 사용하지 않음 - 내부 데이터의 은닉에 활용 http://jonnung.blogspot.kr/2014/09/python-easy-closure.html http://nbviewer.ipython.org/github/jonnung/book-review/blob/master/core_python_study/closure/python_closure.ipynb @장식자 - 데코레이터 데코레이터의 개념은 일종의 래핑(wrapping) 함수 실행되는 함수를 파라미터로 받아서 실행되는 함수 #!/usr/bin/python # -*- coding: utf-8 -*- import time def elapsed_time(fun..
@xlsxwriter 사용시 대용량 데이터를 이용할 경우 주의할 점 xlsxwrite 는 파일을 생성할 때 worksheet 을 이용하여 write 한 데이터를 메모리에 저장한다. 입력한 데이터를 이용하여 데이터를 조작할 때 유용하게 이용하기 위해 사용하고 있는데 이렇게 되면 모든 데이터가 메모리에 저장되기 때문에 대용량 데이터를 쓸때 메모리가 급격하게 늘어나는 것을 확인할 수 있다. 8만 라인을 쓰는데 500G 정도의 메모리를 이용하는 것을 확인하였다. 이로 인해 파이선이 메모리 오류로 죽어 버리는 경우가 발생하였다. OSError: [Errno 12] Cannot allocate memory 이를 방지하기 위해서 다음과 같이 선언하면 된다. workbook = xlsxwriter.Workbook(fi..
CLI 환경에서 EC2 인스턴스의 메타 정보를 확인하는 방법은 다음과 같다. * 해당 정보는 암호화 되지 않으므로 확인할 때 주의해야 한다. 확인가능한 리스트 curl http://169.254.169.254/latest/meta-data/ 정보 확인 curl http://169.254.169.254/latest/meta-data/[리스트 목록의 정보] [인스턴스 자격증명 문서및 서명 확인 curl http://169.254.169.254/latest/dynamic/instance-identity/document ex) curl http://169.254.169.254/latest/meta-data/ami-id curl http://169.254.169.254/latest/meta-data/hostnam..
hadoop 2.x 버전 capacity-scheduler.xml 설정방법 하둡은 커패시티 스케줄러를 이용하여, 자원을 효율적으로 분산하여 사용하게 할 수 있다. 계층형 큐를 이용하여 작업을 분산하여 처리할 수 있도록 설정할 수 있다. 큐는 트리구조로 생성되며 최상위 계층은 root 이다. root 아래에 기본적으로 default 큐가 생성되어 있고, 사용자가 큐를 추가할 수 있다. yarn.scheduler.capacity.root.queues queue_name1,queue_name2,default 아래와 같이 설정하여 큐에 할당 할 수 있는 최대의 자원을 % 로 설정한다. 그 외 나머지 설정을 [큐이름]을 지정하여 할당 하면 된다. yarn.scheduler.capacity.root.[큐이름].ca..
> 한글 >> 한글 # 서로다른 타입에 대한 확인 print type(h1) print type(h2) >> >> # 리스트에 추가후 출력 str_list = [] str_list.append(h1) str_list.append(h2) print str_list >> ['\xed\x95\x9c\xea\xb8\x80', u'\ud55c\uae00'] ''' # UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal 오류 발생 if h1 == h2: print True ''' ''' # UnicodeDecodeError: 'ascii' codec ..
위치 : 양재 한전아트센터 일시 : 2015.01.11 아들의 방학을 맞이 하여 스페이스 번개맨3을 관람하였다. 딩동댕 유치원에 등장하던 사람들이 그대로 출연하여 아이들이 쉽게 몰입할 수 있있고, 1시간의 공연시간으로 딱 집중력이 끝날쯤에 공연이 종료되었다. * 주연배우(번개맨, 마리오, 나잘난, 더잘난 등)들이 따로 관객들과 만나는 시간이 없어서 아쉬웠음 ** 공연중에 2번 무대를 내려오는데 이때는 통로쪽 관객들이 인사하기에 유리함.... 앞으로는 통로쪽으로 앉아야 겠음 *** 나잘난이 무대매너가 좋았음
Oozie 4.0 특징 1. HCatalog Integration - HCatalog 데이터셋 지원, 파티션 생성에 대한 알림 지원 - 데이터 존재여부를 HCatalog 를 이용하여 확인 가능 2. Job Notifications - JMS 를 통한 상태 변경알림 지원 - 사용자가 지정한 메시지를 알림 지원 3. SLA 모니터링 - SLA 수준 모니터링 정보 제공 - 웹콘솔, REST Api, JMS, Email 을 이용한 정보 제공 - coord, workflow, workflow action 단위로 시작시간, 종료시간에 따른 처리 상황 모니터링, 이메일 알림 기능 참고 우지4 특징 - http://www.slideshare.net/ydn/hadoop-meetup-hug-october-2013-oozi..
윈도우8 로그인시 PIN 암호를 사용하고 있었는데 PC를 샀을때 무료로 설치되어 있던 노턴을 삭제하고 나니 대략 1분 정도 지연후에 로그인이 진행되었다. 그래서 검색을 해보니 아래의 사이트에서 해결책을 찾았다. 원인은 노턴이 삭제 되면서 PIN 로그인에 필요한 서비스를 죽이고 가는 모양이다. -_-; 윈도우 서비스의 "Credential Manager" 의 상태를 확인해서 '수동' 으로 되어 있다면 '자동' 으로 변경해주면 된다. http://www.sysnet.pe.kr/2/0/1686
서비스 수준 협약 - SLA(Service Level Agreement) 서비스를 제공함에 있어서 제공 서비스에 대한 측정지표와 목표에 대한 협약서이다. 서비스될 수 있는 시간 비율, 동시 사용자수, 사용량 통계 등의 정보를 정의한다. 협의한 지표에 대한 수행결과로 계약의 수행여부를 판단한다. 참고 - 아마존 AWS EC2의 SLA 계약 (월별 가동시간 비율에 따라 금액 산정) http://aws.amazon.com/ko/ec2/sla/
캐러비안베이 2014.12.28 크리스마스 연휴의 끝에 다녀온 캐러비안 베이 아침 9시 30분쯤에 도착했는데 입장하니 비치체어는 이미 만석이었음 * 입장하자마자 락커로 가지말고 4층으로 이동하여 옷을 입은 상태로 비치체어부터 빌리는 것이 좋을 듯 도착했을때가 -6도 였고, 낮에는 4도 정도 였는데 물온도가 따뜻해서 놀기에는 나쁘지 않았다. 유수풀도 온도가 따뜻해서 밖에서 놀아도 춥게 느껴지지 않았다. 한여름보다 사람이 작아서 아이들은 신이 나서 더 좋았던것 같다. 점심은 11시 쯤에 미리 먹는것이 좋다. 12시에 가면 사람들이 줄을 너무 많이 서있다. 식당이 2개밖에 없어서 사람들이 너무 많았다. * 홈페이지에 예약 기능이 생겼다. 비치 체어를 예약해 놓고 가면 더 편하다.
하이브 데이터 조회 조건을 정규식을 이용하여 분리하는 방법은 다음과 같다. select 칼럼명 from 테이블명 where 칼럼명 rlike '^[a-zA-Z0-9]*$'; 조회 쿼리에 rlike 를 이용하면 된다. regexp 로 대체하여도 동일한 결과를 출력한다. 정규식은 java 에서 사용하는 정규식과 동일하다. 위의 조회에 사용된 표현식은 처음[^] 부터 끝[$] 까지 영문 대소문자와 숫자 의 반복[*]으로 표현된 문자열만 찾는 쿼리이다. https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
[string 포맷팅] python 의 문자열 포맷팅은 두가지 방법을 사용한다. - .format() - % 두가지 방법중 어떤 방법을 사용해도 상관없다. % 를 이용하는 것이 권장되고 있는 것 같다. #!/usr/bin/python # -*- coding : utf-8 -*- # format 이용 sentence1 = 'I am a {}' print sentence1.format("boy") # format 에 리스트와 dict 를 이용한 방법 sentence3 = "I am a {0} and {x}" print sentence3.format("boy", x="girl") # % 와 dict 를 이용한 방법 sentence2 = "I am a boy %(x)s" print sentence2 % { "x..
Javascript 기초 - 데이터 타입 - http://insanehong.kr/post/javascript-datatype/ 함수 선언 vs 함수 표현 - http://insanehong.kr/post/javascript-function/ Insane Hong 님 블로그의 글 요약 1. Javascript 기초 데이터 타입 - 기초 데이터 타입 Number String Boolean Object Function Array Date RegExp Null undefined - 문자열(String)을 숫자형(Number)으로 변경하는 방법 parseInt("문자열", 진법), parseFloat("문자열", 진법) 함수로 숫자형으로 변경 진법을 입력하지 않으면 문자열에 입력된 값이 0x 로 시작하면 16진..
NoSQL 이란? No SQL 또는 Not Only SQL의 약자이다. 기존의 RDBMS와 다른 형태의 데이터 저장 방법을 통칭한다. MongoDB, Casandra 가 가장 유명하다. RDBMS와의 차이 관계를 정의하지 않는다. RDBMS의 외부키를 이용한 다른 테이블과의 관계가 없다. 대용량의 데이터를 저장한다. 분산형의 구조이다. 고성능 머신 하나에 데이터를 저장하지 않고, 다수의 컴퓨터에 데이터를 저장한다. 스키마를 고정하지 않는다. RDBMS 는 칼럼의 데이터 타입을 지정하면 해당 형태의 데이터만 입력해야 하지만, NoSQL은 데이터 형식을 고정하지 않는다. 다양한 종류(http://nosql-database.org/)가 있기 때문에 사용을 고려 한다면 자신이 사용해야 하는 상황에 맞는 종류를 ..
BI 비지니스 인텔리전스란 포괄적인 개념으로 기업의 의사결정에 도움을 주는 시스템, 프로세스를 말한다. DI로 데이터를 집적해서, DW로 정보를 묶어 놓으면 이를 분석해서 요청자가 원하는 정보를 분석하고 예측해서 결과를 내어 놓는 시스템을 말한다. 다시 말해서 DW가 과거의 데이터의 집약체고, OLAP는 과거의 데이터를 분석해서 보여주는 것이고, BI는 이 자료들을 활용하여 미래의 데이터를 예측하는 것이다. 참고자료 실시간 기업과 BI, DW의 역활 - http://allen222.egloos.com/5001839 BI와 OLAP의 차이 - http://k.daum.net/qna/view.html?qid=3SjAV 차세대 BI 시스템 구축전략 - http://blog.naver.com/PostView.n..
하둡이란? 하둡은 클러스터 환경에서 대량의 자료를 처리할 수 있는 자바로 작성 된 오픈 소스 프레임워크 이다. 구글의 분산처리 시스템인 구글 파일 시스템(GFS)의 영향을 받아서 하둡 분산 파일 시스템(HDFS)과 파일 분석을 위한 맵리듀스를 구현하였다. 하둡의 특징 로그, 텍스트, 이미지 등의 비정형 데이터를 다루는데 유리하게 되어 있다. 실시간 처리보다는 배치처리에 적합하다. 하둡의 구조 하둡의 분산 파일 시스템은 네임노드(Namenode), 데이타노드(Datanode)로 구성된다. 네임노드가 마스터이고 데이타노드가 슬레이브이다. 네임노드가 데이타노드의 위치를 메타데이터로 관리하고 있으며, 네임노드에 이상이 생길 경우 시스템에 문제가 발생 할 수 있기 때문에 세컨더리네임노드(Secondary Name..
아마존 AWS(링크) Amazon Web Services에서는 사용자가 엔터프라이즈 애플리케이션 및 빅 데이터 프로젝트에서 소셜 게임 및 모바일 앱에 이르는 클라우드의 거의 모든 곳에서 실행할 수 있는 다양한 인프라 및 애플리케이션 서비스 집합을 제공합니다. 클라우드 컴퓨팅의 주요 이점 중 하나는 초기 기본 인프라 비용을 비즈니스에 맞춰 조정되는 저렴한 가변 비용으로 대체할 수 있는 기회가 된다는 점입니다 아마존 EC2(링크) Amazon Elastic Compute Cloud(Amazon EC2)는 클라우드에서 컴퓨팅 파워의 규모를 자유 자재로 변경할 수 있는 웹 서비스입니다. 이 서비스는 개발자가 웹 스케일 컴퓨팅을 쉽게 사용할 수 있도록 설계되었습니다. Amazon EC2의 간단한 웹 서비스 인터페..
http://blog.daum.net/marae/3861068 Batch Processing 작업을 몰아두었다가 한번에 처리하는 시스템. 예:선거투표결과 추출, 게임 이벤트 아이템 일괄 지급 등 OLTP: OnLine Transaction Processing Batch 와 반대되는 개념으로 실시간으로 db의 데이터를 트랜잭션 단위로 갱신/조회하는 처리방식. 은행, 증권사 등에서 씀. 기존과 달리 다수의 client가 거의 동시에 이용할수 있도록 송수신자료를 트랜잭션단위로 압축한것이 특징. DW: Data Warehouse 수년간 발생한 데이터를 모아서 주제별로 합쳐 분석할 수 있게 하는 통합시스템. 예) 운영데이터, 분산데이터, 시장데이터를 추출하여 DW를 구축하고 그걸 DSS나 OLAP로 분석 ※Dat..
지금까지 아파치와 톰캣을 같은 웹애플리케이션서버(WAS)라고 생각 했었는데 둘 사이에는 차이가 존재한다.지금 부터라도 둘의 차이를 잘 알아둬야 겠다. 위키피다아 - 톰캣위키피디아 - 아파치 아파치는 웹서버(Web Server) 이고, 톰캣은 웹 애플리케이션 서버(Web Application Server)이다. 톰캣은 자바로 구현된 Jsp, 서블릿을 처리하는데 특화된 애플리케이션 서버이고, 정적 구성요소(html, 이미지, css, js) 등의 처리는 웹 서버가 더 빠르다.아파치는 perl, ruby, php 등의 처리도 가능하고 톰캣보다 빠른 성능으로 정적 구성요소 처리가 가능하다. 아파치가 톰캣보다 큰 형태의 웹서버가 되겠다. 상세한 내용은 Stack Overflow 의 내용을 보면 된다. * 아파치는..
- Total
- Today
- Yesterday
- Linux
- emr
- nodejs
- yarn
- ubuntu
- 오류
- 알고리즘
- 하둡
- mysql
- HDFS
- Tez
- Python
- HIVE
- bash
- java
- oozie
- 정올
- AWS
- 파이썬
- S3
- 다이나믹
- hbase
- error
- 하이브
- airflow
- build
- Hadoop
- 백준
- SPARK
- SQL
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |