일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- spark explode
- docker
- tableau
- airflow
- 프로그래머스 파이썬
- 데이터 시각화
- DataFrame Spark
- SparkSQL
- BigQuery
- ifkakao2020
- Docker error
- 도커
- 도커오류
- 시각화
- 빅쿼리 튜닝
- spark #스파크
- pyspark오류
- 로컬 pyspark
- sparkdf
- spark df
- 도커exec
- 태블로
- Big Query
- 코테
- 빅쿼리
- dataframe
- 언어모델
- LLM
- 데이터엔지니어링
- PySpark
- Today
- Total
목록전체 글 (44)
SOGM'S Data
spark 2.0 부터는 RDD 기반의 Dataframe이 지원된다. 기존 DB 언어인 SQL을 사용할 수 있어서 굉장히 편리하다. 기본 SPARK의 구동원리는 RDD와 같다. ( transformation lazy , action시 실제 spark run) 1. 원본 데이터 모습. (예시) 2. 필요 모듈 불러오기 및 sparksession 초기화 from pyspark.sql import SparkSession from pyspark.sql import Row # Create a SparkSession spark = SparkSession.builder.appName("SparkSQL").getOrCreate() 우선 dataframe의 경우 sparksessio..
각 열 : stationID(관측소) , entryType(온도 구분) , temperature(섭씨) 정보가 포함된 기상 관측소 데이터 x[0]: stationID(관측소) , x[2]: entryType(온도 구분) , x[3]: temperature(섭씨) step1 : spark conf 생성 from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("MinTemperatures") sc = SparkContext.getOrCreate(conf=conf) #중복 sparkconf 실행 명령어 -> getOrCreate getOrCreate(conf=conf) 명령어의 경우 이미 존재하는 스..
얼마전 유튜브에서 SQL 실행계획을 쳐보고 나서 굉장히 SQL에 대해 쉽게 설명을 잘해주시는 강사님을 찾았습니다. 해당 강의자료를 참조합니다. 전광철님 감사합니다 ! (출처 하단 참조) *해당 포스팅은 ORACLE 기준으로 실행계획을 설명합니다. 1.데이터 구조 (급여 테이블, 직원 테이블 각각 인덱스 존재) 2. 실행 쿼리문 사원과 부서테이블을 조인하고 봉급테이블에서 특정 봉급을 제외시키는 로직 3. 실행계획은 다음과 같다. 들여쓰기가 가장 깊은 것 찾아나가며 같은 level의 들여쓰기는 가지쳐진다. 예시) 2,8 / 3,8 / 4,6 4. 해석순서 해석 순서는 왼쪽아래부터 시행한다. 즉 1번의 빨간 점선이 영역이 먼저 시작됨. 4-2. 해석순서2 4-3. 1번 영역 실행계획 살펴보기 왼쪽하단의 5)P..
무비 렌즈 데이터로 영화 평점 COUNT()하는 예제 1. Spark context 생성. 각 메소드는 주석 참조 from pyspark import SparkConf, SparkContext import collections conf = SparkConf().setMaster("local").setAppName("RatingsHistogram") #set master의 경우 cluster가아닌 local에서 실시. 즉 데이터 분산 x #sparkAppname은 spark web ui에서 식별할 수 있는 값. sc = SparkContext(conf = conf) 2. sc객체로 데이터 읽어오기. lines = sc.textFile("file:///SparkCourse/ml-100k/u.data") ra..
아마 SPARK를 이용할때 파이썬을 이용하려는 분들은 - 아나콘다 설치 - JDK 혹은 JRE (JAVA 설치) - SPARK 설치 - 윈도우라면 winutils 설치 4가지를 하셨을 것이고 환경변수 설정과 폴더 설정을 하셨을 것 같습니다. 저 같은 경우는 위 과정을 다거 치고 환경변수 설정까지 마쳤는데 불구하고 anaconda prompt에서 c:\[spark설치폴더] pyspark 로 Pyspark를 실행 시켜도 다양한 warn 오류와 함께 기존 실행되고 있는 PID 프로그램들을 종료했다는 안내가 나왔습니다. (OMGㅜ) 반면 spark-shell을 실행하면 잘되었습니다. 열심히 구글링 하며 환경변수 설정들을 바꿔봐도 해결을 못하여 헤매다 결국 혼자 이런 저런 시도 끝에 해결하였습니다. 결론을 먼저 ..