[개념] 빅데이터
빅데이터란? : 큰 사이즈의 데이터로부터 유의미한 지표를 분석해내는 것 데이터의 규모에 초점을 맞춘 정의 기존 데이터 베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터업무 수행 방식에 초점을 맞춘 정의다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍처Volume(양)수십 테라바이트에서 수 페타바이트에 이르는 크기의 데이터 Variety(다양성)정형(DB), 반정형(XML, HTML), 비정형(텍스트, 사진) 형태의 데이터Velocity(속도)실시간, 빠른 처리를 통한 유의미한 결론 도출Value(가치)어떠한 가치를 지니는 유의미한 데이터를 도출Veracity(진실성)이 데이터가 어느정도의 ..
2017. 12. 20.
[hive] JSON 문자열을 맵으로 변환(json string to map)
hive 에서 json 문자열을 map으로 변환하는 방법은 다음과 같다. SELECT substring("{'a':'1','b':'2'}", 2, length("{'a':'1','b':'2'}")-2); SELECT str_to_map(substring("{'a':'1','b':'2'}", 2, length("{'a':'1','b':'2'}")-2), ",", ":"); SELECT explode(str_to_map(substring("{'a':'1','b':'2'}", 2, length("{'a':'1','b':'2'}")-2), ",", ":")) as (key,value); hive> SELECT substring("{'a':'1','b':'2'}", 2, length("{'a':'1','b':'2..
2017. 12. 12.
[개념] HCatalog, HCatalog Server
HCatalog는 하이브 0.11.0 버전에 통합되었습니다. [바로가기] HCatalog Server는 Hive Metastore와 같습니다. 따라서 EMR의 경우 hive-hcatalog-server 로 실행되는 프로세스가 하이브 메타스토어 입니다. 개요 HCatalog는 하둡 에코 시스템의 데이터 처리 도구(Pig, MR, Hive)들 간의 테이블, 저장공간 관리 계층을 제공한다. HDFS 상의 파일들에 대한 추상계층을 제공하여, 사용자가 데이터의 위치, 저장 형태에 대하여 신경쓰지 않아도 되도록 제공한다. HCatalog는 파일을 읽고, 쓰기 위한 SerDe 를 제공한다. RCFile, CSV, JSON, SequenceFile, ORC 포맷을 지원한다. 사용자가 커스텀 포맷을 생성하여 처리할 수도..
2017. 11. 28.