빅데이터
정의
빅데이터는 큰 사이즈의 데이터로부터 유의미한 지표를 분석해내는 것 으로 정의할 수 있다.
- 데이터 규모에 초점을 맞춘 정의
- 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터
- 업무 수행 방식에 초점을 맞춘 정의
- 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍처
출현배경
- 데이터 양의 증가 / 데이터 저장기술 발달
- SNS등장, 스마트 기기 보급
- 디지털 저장기술과 장치의 발달
- 경제적 타당성 증가 / 저장장치의 가격 인하
- 1980년대 1G 10억 이상이던 메모리 가격이 2010년대 100원 미만으로 떨어짐
- 데이터 처리기술 발달
- 분산 병렬처리 기술의 발달로 합리적인 시간 안에 데이터 분석이 가능해짐
- CPU 발전, 클라우드 컴퓨팅, 하둡 등 오픈소스 활성화
특징
빅데이터의 특징은 보통 3V라고 할 수 있다.
- Volume - 크기
- 저장장치 가격의 하락, 네트워크 속도의 향상으로 수 페타바이트의 데이터가 매일 생성
- Variety - 다양성
- 정형: DB 같이 고정형 필드에 저장되는 데이터
- 반정형: XML, HTML 같이 메타데이터나 스키마등을 포함하는 데이터
- 비정형: 동영상, SNS 메시지, 사진, 오디오 등 고정된 형태가 없는 데이터
- Velocity - 속도
- 정보의 유통 속도
- 데이터의 처리 속도
3V에 아래의 두가지를 추가해서 4V, 5V로 부르기도 한다.
- Value - 가치
- 유의미한 가치를 가지는 지표
- Veracity - 정확성
- 빅데이터를 이용하여 뽑아낸 데이터의 신뢰성
빅데이터 처리 단계
빅데이터는 다음과 같은 단계로 처리 된다.
수집
- 데이터를 수집하는 단계
- 정형, 비정형, 반정형 데이터
- 정형: DB, csv 와 같은 칼럼 단위의 형태가 존재하는 데이터
- 반정형: xml, html 처럼 스키마가 존재하는 데이터
- 비정형: 동영상, 음성 데이터 처럼 형태가 존재하지 않는 데이터
정제
- 수집한 데이터를 적재하기 위해 필요없는 데이터, 깨진 데이터를 정리하는 단계
- 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요없는 부분을 제거하는 단계가 필요함
- 수집한 데이터를 적재하기 위해 필요없는 데이터, 깨진 데이터를 정리하는 단계
적재
- 정제된 데이터를 분석하기 위해 적재하는 단계
- RDB, NoSQL 데이터베이스, Redshift, Druid 등의 도구에 적재
분석
- 적재한 데이터를 의미있는 지표로 분석하는 단계
- 의사결정권자나 이용자가 사용할 수 있는 데이터로 분석하는 단계
시각화
- 분석한 데이터를 도표로 보여주는 단계
- 데이터를 이해하기 쉬운 차트로 분석하는 단계
반응형
'빅데이터' 카테고리의 다른 글
[빅데이터] 아파치 피닉스(Apache Phoenix) (0) | 2019.08.01 |
---|---|
[빅데이터] ORC와 Parquet 파일 저장 형식 (0) | 2019.02.19 |
[빅데이터] 실무자를 위한 빅데이터 #2 빅데이터 관련 기술(하둡 에코 시스템) (0) | 2018.05.03 |
[빅데이터] 하둡 에코 시스템 (0) | 2018.02.13 |
[개념] 빅데이터 (0) | 2017.12.20 |