일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- dataframe
- 빅쿼리 튜닝
- 도커
- BigQuery
- spark df
- tableau
- Docker error
- 로컬 pyspark
- PySpark
- LLM
- SparkSQL
- 프로그래머스 파이썬
- Big Query
- spark explode
- 시각화
- 도커오류
- 데이터 시각화
- spark #스파크
- airflow
- ifkakao2020
- 빅쿼리
- 태블로
- 코테
- DataFrame Spark
- pyspark오류
- 언어모델
- 데이터엔지니어링
- 도커exec
- docker
- sparkdf
- Today
- Total
목록About Data (32)
SOGM'S Data

SPARK DataFrame 조작 모음 from pyspark.sql import SparkSession from pyspark.sql import Row from pyspark.sql import functions as func spark = SparkSession.builder.appName("FriendsByAge").getOrCreate() lines = spark.read.option("header", "true").option("inferSchema", "true").csv("file:///SparkCourse/fakefriends-header.csv") # Select only age and numFriends columns friendsByAge = lines.select("age", "f..

spark 2.0 부터는 RDD 기반의 Dataframe이 지원된다. 기존 DB 언어인 SQL을 사용할 수 있어서 굉장히 편리하다. 기본 SPARK의 구동원리는 RDD와 같다. ( transformation lazy , action시 실제 spark run) 1. 원본 데이터 모습. (예시) 2. 필요 모듈 불러오기 및 sparksession 초기화 from pyspark.sql import SparkSession from pyspark.sql import Row # Create a SparkSession spark = SparkSession.builder.appName("SparkSQL").getOrCreate() 우선 dataframe의 경우 sparksessio..

각 열 : stationID(관측소) , entryType(온도 구분) , temperature(섭씨) 정보가 포함된 기상 관측소 데이터 x[0]: stationID(관측소) , x[2]: entryType(온도 구분) , x[3]: temperature(섭씨) step1 : spark conf 생성 from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("MinTemperatures") sc = SparkContext.getOrCreate(conf=conf) #중복 sparkconf 실행 명령어 -> getOrCreate getOrCreate(conf=conf) 명령어의 경우 이미 존재하는 스..

얼마전 유튜브에서 SQL 실행계획을 쳐보고 나서 굉장히 SQL에 대해 쉽게 설명을 잘해주시는 강사님을 찾았습니다. 해당 강의자료를 참조합니다. 전광철님 감사합니다 ! (출처 하단 참조) *해당 포스팅은 ORACLE 기준으로 실행계획을 설명합니다. 1.데이터 구조 (급여 테이블, 직원 테이블 각각 인덱스 존재) 2. 실행 쿼리문 사원과 부서테이블을 조인하고 봉급테이블에서 특정 봉급을 제외시키는 로직 3. 실행계획은 다음과 같다. 들여쓰기가 가장 깊은 것 찾아나가며 같은 level의 들여쓰기는 가지쳐진다. 예시) 2,8 / 3,8 / 4,6 4. 해석순서 해석 순서는 왼쪽아래부터 시행한다. 즉 1번의 빨간 점선이 영역이 먼저 시작됨. 4-2. 해석순서2 4-3. 1번 영역 실행계획 살펴보기 왼쪽하단의 5)P..

무비 렌즈 데이터로 영화 평점 COUNT()하는 예제 1. Spark context 생성. 각 메소드는 주석 참조 from pyspark import SparkConf, SparkContext import collections conf = SparkConf().setMaster("local").setAppName("RatingsHistogram") #set master의 경우 cluster가아닌 local에서 실시. 즉 데이터 분산 x #sparkAppname은 spark web ui에서 식별할 수 있는 값. sc = SparkContext(conf = conf) 2. sc객체로 데이터 읽어오기. lines = sc.textFile("file:///SparkCourse/ml-100k/u.data") ra..