spark 2.4.6 과 쥬피터 노트북을 연동하여 pyspark 를 실행하는 방법을 알아보겠습니다. 주의 사항 spark 2.4.6은 파이썬 3.8 버전 이상을 지원하지 않습니다. 우분투 20 이상은 파이썬 3.8 버전이 기본 설치 되어 있어서 파이썬 3.6이나 3.7을 설치하고 연동하여야 합니다. 쥬피터 노트북은 사용하고자 하는 파이썬 버전의 pip로 설치하여야 합니다. apt를 이용하여 쥬피터 노트북을 설치하면 우분투의 기본 파이썬 버전에 설치 됩니다. 우분투 20기준 파이썬 3.8에 설치 됩니다. 설치 방법 파이썬 3.6 버전 설치. 우분투 20기준 소스를 빌드해서 설치 해야 함 쥬피터 노트북 설치 pip로 설치 ipython 커널 설치 ipython 커널을 설치해야 노트북에서 이용 가능 스파크 파..
![](http://i1.daumcdn.net/thumb/C148x148.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/erZA0U/btrrPO0g77o/RvM3F1AAkzzB5KSxMGtWm1/img.png)
우지 스파크 액션에서 pyspark를 실행할 때 Missing py4j and/or pyspark zip files. Please add them to the lib folder or to the Spark sharelib 오류가 발생하는 경우가 있습니다. 해결 방법 우지의 sharelib 에 파이썬 라이브러리가 없어서 발생하기 때문에 우지의 spark sharelib에 스파크 파이썬 라이브러리를 추가하면 됩니다. # 스파크 홈 $ cd ${SPARK_HOME}/python/lib # 조회 $ ls -alh total 636 drwxr-xr-x 2 deploy deploy 4096 May 30 2020 ./ drwxr-xr-x 7 deploy deploy 4096 May 30 2020 ../ -rw-r-..
pyspark에서 UDF를 이용하는 방법을 알아보겠습니다.
pyspark와 Hive 서버와 연동하는 방법을 알아보겠습니다.
- Total
- Today
- Yesterday
- airflow
- HDFS
- error
- HIVE
- 오류
- 정올
- mysql
- Hadoop
- 하이브
- Tez
- 하둡
- bash
- Python
- 알고리즘
- build
- yarn
- oozie
- nodejs
- hbase
- SPARK
- SQL
- 다이나믹
- java
- 백준
- Linux
- emr
- 파이썬
- AWS
- S3
- ubuntu
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |