일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- spark df
- 데이터엔지니어링
- DataFrame Spark
- tableau
- 프로그래머스 파이썬
- airflow
- Big Query
- docker
- 도커
- 시각화
- SparkSQL
- 빅쿼리
- 빅쿼리 튜닝
- 언어모델
- 데이터 시각화
- spark explode
- 코테
- sparkdf
- 도커exec
- Docker error
- spark #스파크
- 태블로
- dataframe
- LLM
- 도커오류
- 로컬 pyspark
- pyspark오류
- PySpark
- BigQuery
- ifkakao2020
- Today
- Total
SOGM'S Data
로컬에 spark 설치후 pyspark 실행 오류 본문
아마 SPARK를 이용할때 파이썬을 이용하려는 분들은
- 아나콘다 설치
- JDK 혹은 JRE (JAVA 설치)
- SPARK 설치
- 윈도우라면 winutils 설치
4가지를 하셨을 것이고 환경변수 설정과 폴더 설정을 하셨을 것 같습니다.
저 같은 경우는 위 과정을 다거 치고 환경변수 설정까지 마쳤는데 불구하고 anaconda prompt에서
c:\[spark설치폴더] pyspark
로 Pyspark를 실행 시켜도 다양한 warn 오류와 함께 기존 실행되고 있는 PID 프로그램들을 종료했다는 안내가 나왔습니다. (OMGㅜ)
반면 spark-shell을 실행하면 잘되었습니다.
열심히 구글링 하며 환경변수 설정들을 바꿔봐도 해결을 못하여 헤매다 결국 혼자 이런 저런 시도 끝에 해결하였습니다.
결론을 먼저 말씀드리자면 문제는 자바 version 호환 문제 였습니다.
제 스파크 버전인 (3.2X)와 호환되지 않던 자바(17SE)를 삭제하고 자바(8.X)을 설치함으로서 해결하였습니다.
각 spark 별로 호환되는 자바 version이 다른데
저는 oracle사이트에서 최신 자바 17을 설치하였어요. (참고로 제 spark는 3.2 버전이었습니다.)
스크롤을 더 내려서 보면
자바8 버전을 다운받을 수 있었습니다. ( 참고로 8 다운로드의 경우, ORACLE 최초 회원가입 계정이 필요합니다)
혹시 이것저것 바꿔봐도Pyspark 오류가 나는 경우
SW간 버전 호환문제를 한 번 의심해보시기 바랍니다!!
이 글을 찾아온 분들꼐 도움이 되시길 바랍니다.
'About Data > Engineering' 카테고리의 다른 글
SPARK_01 : RDD_2 (mapvalue, reduceByKey) (0) | 2022.02.06 |
---|---|
SPARK_01 : RDD_1 (0) | 2022.01.11 |
[1-4] SPARK RDD + structured data (0) | 2021.12.28 |
[1-3]SPARK RDD 세부설명+dataframe (0) | 2021.12.27 |
[1-2]SPARK의 실시간 배치 (0) | 2021.12.12 |