본문 바로가기
빅데이터/spark

[spark] MLib 라이브러리

by hs_seo 2019. 4. 11.

머신러닝(기계학습)은 인공 지능의 한 분야로 컴퓨터가 학습을 할 수 있도록 알고리즘과 기술을 개발하는 것입니다. 예를 들어 기계학습을 통해 스팸메일을 가려낼 수 있습니다. 

 

머신러닝의 핵심은 표현과 일반화 입니다. 표현이란 데이터의 평가이며 일반화는 아직 알 수 없는 데이터이 처리입니다. 

 

스파크의 MLib는 이 머신러닝 처리를 가능하게 하는 라이브러리 입니다. 기본적으로 제공하는 알고리즘은 다음과 같습니다. 

  • 통계(Statistics)
  • 분류(Classification)
  • 회귀(Regression)
  • 협업  필터링(Collaborative Filtering)
  • 클러스터링(Clustering)
  • 차원 축소(Dimensionality Reduction)
  • 특징 추출(Feautre Extraction)
  • 빈발 패턴 마이닝(Frequent Pattern Mining)
  • 최적화(Optimization)

 

반응형