우지 스파크 액션에서 pyspark를 실행할 때 Missing py4j and/or pyspark zip files. Please add them to the lib folder or to the Spark sharelib 오류가 발생하는 경우가 있습니다.
해결 방법
우지의 sharelib 에 파이썬 라이브러리가 없어서 발생하기 때문에 우지의 spark sharelib에 스파크 파이썬 라이브러리를 추가하면 됩니다.
# 스파크 홈
$ cd ${SPARK_HOME}/python/lib
# 조회
$ ls -alh
total 636
drwxr-xr-x 2 deploy deploy 4096 May 30 2020 ./
drwxr-xr-x 7 deploy deploy 4096 May 30 2020 ../
-rw-r--r-- 1 deploy deploy 42437 May 30 2020 py4j-0.10.7-src.zip
-rw-r--r-- 1 deploy deploy 1445 May 30 2020 PY4J_LICENSE.txt
-rw-r--r-- 1 deploy deploy 593141 May 30 2020 pyspark.zip
# sharelib 에 zip 파일 업로드
$ hadoop fs -put *.zip hdfs:///user/oozie/share/lib/lib_2xxxxx/spark/
반응형