본문 바로가기
빅데이터

[빅데이터] 실무자를 위한 빅데이터 #1 빅데이터 개요

by hs_seo 2018. 5. 3.

빅데이터

정의

빅데이터는 큰 사이즈의 데이터로부터 유의미한 지표를 분석해내는 것 으로 정의할 수 있다.

  • 데이터 규모에 초점을 맞춘 정의
    • 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터
  • 업무 수행 방식에 초점을 맞춘 정의
    • 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍처


출현배경

  • 데이터 양의 증가 / 데이터 저장기술 발달
    • SNS등장, 스마트 기기 보급
    • 디지털 저장기술과 장치의 발달
  • 경제적 타당성 증가 / 저장장치의 가격 인하
    • 1980년대 1G 10억 이상이던 메모리 가격이 2010년대 100원 미만으로 떨어짐
  • 데이터 처리기술 발달
    • 분산 병렬처리 기술의 발달로 합리적인 시간 안에 데이터 분석이 가능해짐
    • CPU 발전, 클라우드 컴퓨팅, 하둡 등 오픈소스 활성화


특징

빅데이터의 특징은 보통 3V라고 할 수 있다.

  • Volume - 크기
    • 저장장치 가격의 하락, 네트워크 속도의 향상으로 수 페타바이트의 데이터가 매일 생성
  • Variety - 다양성
    • 정형: DB 같이 고정형 필드에 저장되는 데이터
    • 반정형: XML, HTML 같이 메타데이터나 스키마등을 포함하는 데이터
    • 비정형: 동영상, SNS 메시지, 사진, 오디오 등 고정된 형태가 없는 데이터
  • Velocity - 속도
    • 정보의 유통 속도
    • 데이터의 처리 속도

3V에 아래의 두가지를 추가해서 4V, 5V로 부르기도 한다.

  • Value - 가치
    • 유의미한 가치를 가지는 지표
  • Veracity - 정확성
    • 빅데이터를 이용하여 뽑아낸 데이터의 신뢰성

3v5v

빅데이터 처리 단계

빅데이터는 다음과 같은 단계로 처리 된다.

  • 수집

    • 데이터를 수집하는 단계
    • 정형, 비정형, 반정형 데이터
      • 정형: DB, csv 와 같은 칼럼 단위의 형태가 존재하는 데이터
      • 반정형: xml, html 처럼 스키마가 존재하는 데이터
      • 비정형: 동영상, 음성 데이터 처럼 형태가 존재하지 않는 데이터
  • 정제

    • 수집한 데이터를 적재하기 위해 필요없는 데이터, 깨진 데이터를 정리하는 단계
      • 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요없는 부분을 제거하는 단계가 필요함
  • 적재

    • 정제된 데이터를 분석하기 위해 적재하는 단계
    • RDB, NoSQL 데이터베이스, Redshift, Druid 등의 도구에 적재
  • 분석

    • 적재한 데이터를 의미있는 지표로 분석하는 단계
    • 의사결정권자나 이용자가 사용할 수 있는 데이터로 분석하는 단계
  • 시각화

    • 분석한 데이터를 도표로 보여주는 단계
    • 데이터를 이해하기 쉬운 차트로 분석하는 단계


반응형