일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- spark df
- 비주얼라이제이션
- 데이터엔지니어링
- Big Query
- pyspark오류
- 로컬 pyspark
- Docker error
- 시각화
- 빅쿼리
- BigQuery
- dataframe
- airflow
- 태블로
- 코테
- docker
- 도커오류
- DataFrame Spark
- 빅쿼리 튜닝
- ifkakao2020
- 프로그래머스 파이썬
- sparkdf
- PySpark
- 도커exec
- 데이터 시각화
- 도커
- spark #스파크
- SparkSQL
- spark explode
- explode
- tableau
- Today
- Total
목록전체 글 (42)
SOGM'S Data
얼마전 유튜브에서 SQL 실행계획을 쳐보고 나서 굉장히 SQL에 대해 쉽게 설명을 잘해주시는 강사님을 찾았습니다. 해당 강의자료를 참조합니다. 전광철님 감사합니다 ! (출처 하단 참조) *해당 포스팅은 ORACLE 기준으로 실행계획을 설명합니다. 1.데이터 구조 (급여 테이블, 직원 테이블 각각 인덱스 존재) 2. 실행 쿼리문 사원과 부서테이블을 조인하고 봉급테이블에서 특정 봉급을 제외시키는 로직 3. 실행계획은 다음과 같다. 들여쓰기가 가장 깊은 것 찾아나가며 같은 level의 들여쓰기는 가지쳐진다. 예시) 2,8 / 3,8 / 4,6 4. 해석순서 해석 순서는 왼쪽아래부터 시행한다. 즉 1번의 빨간 점선이 영역이 먼저 시작됨. 4-2. 해석순서2 4-3. 1번 영역 실행계획 살펴보기 왼쪽하단의 5)P..
무비 렌즈 데이터로 영화 평점 COUNT()하는 예제 1. Spark context 생성. 각 메소드는 주석 참조 from pyspark import SparkConf, SparkContext import collections conf = SparkConf().setMaster("local").setAppName("RatingsHistogram") #set master의 경우 cluster가아닌 local에서 실시. 즉 데이터 분산 x #sparkAppname은 spark web ui에서 식별할 수 있는 값. sc = SparkContext(conf = conf) 2. sc객체로 데이터 읽어오기. lines = sc.textFile("file:///SparkCourse/ml-100k/u.data") ra..
아마 SPARK를 이용할때 파이썬을 이용하려는 분들은 - 아나콘다 설치 - JDK 혹은 JRE (JAVA 설치) - SPARK 설치 - 윈도우라면 winutils 설치 4가지를 하셨을 것이고 환경변수 설정과 폴더 설정을 하셨을 것 같습니다. 저 같은 경우는 위 과정을 다거 치고 환경변수 설정까지 마쳤는데 불구하고 anaconda prompt에서 c:\[spark설치폴더] pyspark 로 Pyspark를 실행 시켜도 다양한 warn 오류와 함께 기존 실행되고 있는 PID 프로그램들을 종료했다는 안내가 나왔습니다. (OMGㅜ) 반면 spark-shell을 실행하면 잘되었습니다. 열심히 구글링 하며 환경변수 설정들을 바꿔봐도 해결을 못하여 헤매다 결국 혼자 이런 저런 시도 끝에 해결하였습니다. 결론을 먼저 ..
* 본 포스트는 SK T아카데미 아파치 스파크 입문 강의를 듣고 요약 정리한 내용입니다. Directed Acyclic Graph(DAG) dag 는 lineage라고 보면됨. 각각의node들은 데이터를 transform할때마다 생기는 rdd n개의 스테이지에서 m개의 태스크로 나뉘는 모습. 스테이지를 구분은 transformation은 같은 stage 로 묶임. reduce , shuffle , join의 경우 다른 stage로 구분됨. 태스크를 나누는 구분은 executer의 개수와 관련이 있다. 가용한 executer가 100개면 100개의 태스크로 나뉨. transformation - narrow vs wide Action은 마지막 단계 . dag가 시행되는 구간임. collect , count ..
* 본 포스트는 SK T아카데미 아파치 스파크 입문 강의를 듣고 요약 정리한 내용입니다. RDD: spark dataframe으로 잘 안쓰게 되었지만 스팤의 구성요소이다. 스팤 코어에는 rdd가 있음. transformation 하게되면 rdd가 변경함. map-reduce의 map작업. 로그마이닝 예제이다. 파일 읽고 -> 최초 rdd생성 errors라는 에러를 필터링하고 ->새로운 trasform Rdd생성 count() -> rdd action. foo와 bar가 몇개 들어가 있는지 수 세기. 실제 예제의 구조 hdfs파일 블럭단위로 나눠져있고 (블록3개). 실제 spark이 일할때는 action에서만 일함. 드라이버(서버)로 결과를 던져줌 참고로 엔지니어링에서 언어에 대한 참고. 강사님은 분석을 ..