본문 바로가기

pyspark8

[jupyter] 우분투 20에 쥬피터 노트북 설치 및 pyspark 연동 하기 spark 2.4.6 과 쥬피터 노트북을 연동하여 pyspark 를 실행하는 방법을 알아보겠습니다. 주의 사항 spark 2.4.6은 파이썬 3.8 버전 이상을 지원하지 않습니다. 우분투 20 이상은 파이썬 3.8 버전이 기본 설치 되어 있어서 파이썬 3.6이나 3.7을 설치하고 연동하여야 합니다. 쥬피터 노트북은 사용하고자 하는 파이썬 버전의 pip로 설치하여야 합니다. apt를 이용하여 쥬피터 노트북을 설치하면 우분투의 기본 파이썬 버전에 설치 됩니다. 우분투 20기준 파이썬 3.8에 설치 됩니다. 설치 방법 파이썬 3.6 버전 설치. 우분투 20기준 소스를 빌드해서 설치 해야 함 쥬피터 노트북 설치 pip로 설치 ipython 커널 설치 ipython 커널을 설치해야 노트북에서 이용 가능 스파크 파.. 2023. 3. 21.
[oozie] 우지로 pyspark 실행 예제 우지를 이용하여 pyspark 를 실행 할 때는 다음과 같이 실행합니다. pi.py는 워크플로우 경로에 lib 폴더를 만들고 그 아래 있어야 합니다. oozie job -run -config job.porperties 2022. 2. 2.
[oozie] 우지에서 스파크 액션에서 Missing py4j and/or pyspark zip files. 오류 처리 우지 스파크 액션에서 pyspark를 실행할 때 Missing py4j and/or pyspark zip files. Please add them to the lib folder or to the Spark sharelib 오류가 발생하는 경우가 있습니다. 해결 방법 우지의 sharelib 에 파이썬 라이브러리가 없어서 발생하기 때문에 우지의 spark sharelib에 스파크 파이썬 라이브러리를 추가하면 됩니다. # 스파크 홈 $ cd ${SPARK_HOME}/python/lib # 조회 $ ls -alh total 636 drwxr-xr-x 2 deploy deploy 4096 May 30 2020 ./ drwxr-xr-x 7 deploy deploy 4096 May 30 2020 ../ -rw-r-.. 2022. 1. 26.
[pyspark] pyspark 실행시 python: command not found 오류 pyspark 쉘을 실행하는 시점에 python 커맨드를 찾지 못한다는 오류가 발생하면 원인은 두 가지로 생각할 수 있습니다. 파이썬을 설치 하지 않음 파이썬을 설치 한다. 파이썬을 설치 했지만 python 명령이 아니라 python3나 python3.7 등의 버전명으로 명령어가 생성 PYSPARK_PYTHON 환경변수를 설정 2021. 3. 18.
[pyspark] pyspark에서 udf를 이용하는 방법 pyspark에서 UDF를 이용하는 방법을 알아보겠습니다. 2020. 6. 8.
[pyspark] pyspark와 Hive 연동 pyspark와 Hive 서버와 연동하는 방법을 알아보겠습니다. 2020. 6. 8.
[pyspark] 데이터프레임 생성 pyspark에서 스파크세션(SparkSession)과 스파크컨텍스트(SparkContext)를 이용해서 데이터프레임을 생성하는 방법을 알아보겠습니다. 2020. 6. 8.
[pyspark] CSV파일로 데이터프레임 생성 pyspark에서 스파크세션을 이용하여 CSV파일을 읽어서 데이터프레임을 생성하는 예제를 알아보겠습니다. ; 2020. 6. 4.