본문 바로가기
빅데이터/spark

스파크에서 문자열 utf-8 형식으로 처리하기

by hs_seo 2016. 6. 20.

pyspark에서 spakr 2.x 버전을 이용할 경우 utf-8 버전의 파일을 읽어서 처리할 경우 유니코드 오류가 발생한다.

이럴때 다음과 같이 처리하면 된다.


ScalaContext를 이용하여 파일을 읽을 때 use_unicode 옵션을 이용하고,

map 함수에서 라인단위로 읽을 때 인코딩을 처리해주면 된다.



반응형