SOGM'S Data

로컬에 spark 설치후 pyspark 실행 오류 본문

About Data/Engineering

로컬에 spark 설치후 pyspark 실행 오류

왈왈가부 2021. 12. 31. 17:59

아마 SPARK를 이용할때 파이썬을 이용하려는 분들은

- 아나콘다 설치

- JDK 혹은 JRE (JAVA 설치)

- SPARK 설치 

- 윈도우라면 winutils 설치

 

4가지를 하셨을 것이고 환경변수 설정과 폴더 설정을 하셨을 것 같습니다. 

저 같은 경우는 위 과정을 다거 치고 환경변수 설정까지 마쳤는데 불구하고 anaconda prompt에서 

c:\[spark설치폴더] pyspark

로 Pyspark를 실행 시켜도 다양한 warn 오류와 함께 기존 실행되고 있는 PID 프로그램들을 종료했다는 안내가 나왔습니다. (OMGㅜ)

반면 spark-shell을 실행하면 잘되었습니다.

 

 

열심히 구글링 하며 환경변수 설정들을 바꿔봐도 해결을 못하여 헤매다 결국 혼자 이런 저런 시도 끝에 해결하였습니다.

결론을 먼저 말씀드리자면 문제는 자바 version 호환 문제 였습니다. 

제 스파크 버전인 (3.2X)와 호환되지 않던 자바(17SE)를 삭제하고 자바(8.X)을 설치함으로서 해결하였습니다.

 

각 spark 별로 호환되는 자바 version이 다른데 

저는 oracle사이트에서 최신 자바 17을 설치하였어요. (참고로 제 spark는 3.2 버전이었습니다.) 

https://www.oracle.com/java/technologies/downloads/

스크롤을 더 내려서 보면 

자바8 버전을 다운받을 수 있었습니다. ( 참고로 8 다운로드의 경우, ORACLE 최초 회원가입 계정이 필요합니다)

 

혹시 이것저것 바꿔봐도Pyspark 오류가 나는 경우 

SW간 버전 호환문제를 한 번 의심해보시기 바랍니다!!  

이 글을 찾아온 분들꼐 도움이 되시길 바랍니다.

 

'About Data > Engineering' 카테고리의 다른 글

SPARK_01 : RDD_2 (mapvalue, reduceByKey)  (0) 2022.02.06
SPARK_01 : RDD_1  (0) 2022.01.11
[1-4] SPARK RDD + structured data  (0) 2021.12.28
[1-3]SPARK RDD 세부설명+dataframe  (0) 2021.12.27
[1-2]SPARK의 실시간 배치  (0) 2021.12.12
Comments