'About Data' 카테고리의 글 목록 (2 Page)

Notice

왈가왈부 x 왈왈가부 o

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록About Data (32)

SOGM'S Data

SPARK_02 : DATAFRAME_2

SPARK DataFrame 조작 모음 from pyspark.sql import SparkSession from pyspark.sql import Row from pyspark.sql import functions as func spark = SparkSession.builder.appName("FriendsByAge").getOrCreate() lines = spark.read.option("header", "true").option("inferSchema", "true").csv("file:///SparkCourse/fakefriends-header.csv") # Select only age and numFriends columns friendsByAge = lines.select("age", "f..

About Data/Engineering 2022. 2. 28. 00:25

SPARK_02 : DATAFRAME_1

spark 2.0 부터는 RDD 기반의 Dataframe이 지원된다. 기존 DB 언어인 SQL을 사용할 수 있어서 굉장히 편리하다. 기본 SPARK의 구동원리는 RDD와 같다. ( transformation lazy , action시 실제 spark run) 1. 원본 데이터 모습. (예시) 2. 필요 모듈 불러오기 및 sparksession 초기화 from pyspark.sql import SparkSession from pyspark.sql import Row # Create a SparkSession spark = SparkSession.builder.appName("SparkSQL").getOrCreate() 우선 dataframe의 경우 sparksessio..

About Data/Engineering 2022. 2. 17. 00:23

SPARK_01 : RDD_2 (mapvalue, reduceByKey)

각 열 : stationID(관측소) , entryType(온도 구분) , temperature(섭씨) 정보가 포함된 기상 관측소 데이터 x[0]: stationID(관측소) , x[2]: entryType(온도 구분) , x[3]: temperature(섭씨) step1 : spark conf 생성 from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("MinTemperatures") sc = SparkContext.getOrCreate(conf=conf) #중복 sparkconf 실행 명령어 -> getOrCreate getOrCreate(conf=conf) 명령어의 경우 이미 존재하는 스..

About Data/Engineering 2022. 2. 6. 20:12

SQL _ 실행계획 순서

얼마전 유튜브에서 SQL 실행계획을 쳐보고 나서 굉장히 SQL에 대해 쉽게 설명을 잘해주시는 강사님을 찾았습니다. 해당 강의자료를 참조합니다. 전광철님 감사합니다 ! (출처 하단 참조) *해당 포스팅은 ORACLE 기준으로 실행계획을 설명합니다. 1.데이터 구조 (급여 테이블, 직원 테이블 각각 인덱스 존재) 2. 실행 쿼리문 사원과 부서테이블을 조인하고 봉급테이블에서 특정 봉급을 제외시키는 로직 3. 실행계획은 다음과 같다. 들여쓰기가 가장 깊은 것 찾아나가며 같은 level의 들여쓰기는 가지쳐진다. 예시) 2,8 / 3,8 / 4,6 4. 해석순서 해석 순서는 왼쪽아래부터 시행한다. 즉 1번의 빨간 점선이 영역이 먼저 시작됨. 4-2. 해석순서2 4-3. 1번 영역 실행계획 살펴보기 왼쪽하단의 5)P..

About Data/SQL 2022. 1. 17. 02:25

SPARK_01 : RDD_1

무비 렌즈 데이터로 영화 평점 COUNT()하는 예제 1. Spark context 생성. 각 메소드는 주석 참조 from pyspark import SparkConf, SparkContext import collections conf = SparkConf().setMaster("local").setAppName("RatingsHistogram") #set master의 경우 cluster가아닌 local에서 실시. 즉 데이터 분산 x #sparkAppname은 spark web ui에서 식별할 수 있는 값. sc = SparkContext(conf = conf) 2. sc객체로 데이터 읽어오기. lines = sc.textFile("file:///SparkCourse/ml-100k/u.data") ra..

About Data/Engineering 2022. 1. 11. 01:13

Prev 1 2 3 4 5 ··· 7 Next

목록About Data (32)

SOGM'S Data

티스토리툴바