티스토리 뷰

pyspark에서 spakr 2.x 버전을 이용할 경우 utf-8 버전의 파일을 읽어서 처리할 경우 유니코드 오류가 발생한다.

이럴때 다음과 같이 처리하면 된다.


ScalaContext를 이용하여 파일을 읽을 때 use_unicode 옵션을 이용하고,

map 함수에서 라인단위로 읽을 때 인코딩을 처리해주면 된다.



반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함