일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- docker
- 빅쿼리
- 데이터 시각화
- tableau
- 코테
- 도커exec
- 빅쿼리 튜닝
- spark df
- Big Query
- pyspark오류
- 로컬 pyspark
- spark explode
- BigQuery
- spark #스파크
- Docker error
- sparkdf
- ifkakao2020
- 도커오류
- 시각화
- 태블로
- PySpark
- DataFrame Spark
- 프로그래머스 파이썬
- dataframe
- SparkSQL
- airflow
- 도커
- 데이터엔지니어링
- 비주얼라이제이션
- explode
- Today
- Total
목록About Data (30)
SOGM'S Data
* 본 포스트는 SK T아카데미 아파치 스파크 입문 강의를 듣고 요약 정리한 내용입니다. Directed Acyclic Graph(DAG) dag 는 lineage라고 보면됨. 각각의node들은 데이터를 transform할때마다 생기는 rdd n개의 스테이지에서 m개의 태스크로 나뉘는 모습. 스테이지를 구분은 transformation은 같은 stage 로 묶임. reduce , shuffle , join의 경우 다른 stage로 구분됨. 태스크를 나누는 구분은 executer의 개수와 관련이 있다. 가용한 executer가 100개면 100개의 태스크로 나뉨. transformation - narrow vs wide Action은 마지막 단계 . dag가 시행되는 구간임. collect , count ..
* 본 포스트는 SK T아카데미 아파치 스파크 입문 강의를 듣고 요약 정리한 내용입니다. RDD: spark dataframe으로 잘 안쓰게 되었지만 스팤의 구성요소이다. 스팤 코어에는 rdd가 있음. transformation 하게되면 rdd가 변경함. map-reduce의 map작업. 로그마이닝 예제이다. 파일 읽고 -> 최초 rdd생성 errors라는 에러를 필터링하고 ->새로운 trasform Rdd생성 count() -> rdd action. foo와 bar가 몇개 들어가 있는지 수 세기. 실제 예제의 구조 hdfs파일 블럭단위로 나눠져있고 (블록3개). 실제 spark이 일할때는 action에서만 일함. 드라이버(서버)로 결과를 던져줌 참고로 엔지니어링에서 언어에 대한 참고. 강사님은 분석을 ..
* 본 포스트는 SK T아카데미 아파치 스파크 입문 강의를 듣고 요약 정리한 내용입니다. 1부 --- 부제: 빅데이터 프로세스 - 실시간 데이터를 위하여~ 빅데이터 프로세싱 3가지. 스파크 프로세스는 3번째 micro batch라고 생각하면됨. batch와 stream과의 중간. (아주작은 배치단위로 처리) 인스트림 (=네이티브스트림 )방식 source opertor : n개 동작, 데이터 수집 ex.카프카 sink operater: ex/엘라스틱서치 스파크 스트리밍의 마이크로 배치 예시 receiver나 sinkoperator는 카프가 등등 쓰이는 것은 똑같고 두 가지 차이는 앞단에 마이크로 배치로 데이터를 가지고와서 처리하는지 유무로 나뉨. Stream Processing Framework 종류 sp..
* 본 포스트는 SK T아카데미 아파치 스파크 입문 강의를 듣고 요약 정리한 내용입니다. HDFS : 하둡 분산 처리 파일 시스템 (Haddop distributed File System) 재연산시 신뢰성을 위해 카피 large file에 좋으나 small file과 low latency가 단점 masternode - slave node로 구성 master는 메타데이터 매니저 , slave 는 실제 storing data 온프레미스 환경에서 실제로 데이터노드 손실되는경우가 많다. 특히, 디스크 깨지는경우, 특정노드의 리카드, os fault 등등 HDFS는 이것을 막기 위해 분산 복사하여 카피 가지고 있음. 즉 랙에 중복이 없다. 하단 이미지 참조 MapReduce : 하둡 에코시스템의 간단한 프로그래밍..
LOD: 세부 수준 계산식 태블로는 LOD(세부수준계산식) 개념이 있다. 앞서 포스팅에서 태블로는 '집계'의 함수였다. 그렇기 때문에 특정 수준(LEVEL)의 집계가 기본 DEFAULT이다. 예를 들어, 전세계의 GDP의 정보가 담긴 테이블을 태블로에 연동하여 GDP의 합계 혹은 평균 등을 특정 수준 (국가별, 수도별, 주요도시별)로 볼 수 있다. ( 국가, 수도, 주요도시 차원을 선반위로 올려주면 됨 ) 이때 테이블,패널의 범위와 방향에 따라 재계산이 달라질 수 있으므로 유의해야함. 이 LEVEL을 벗어나기 위해서는 LOD와 같은 세부 수준 계산식을 만들어 줘야한다. 계산된 필드에서 LOD를 만들어주는 방법은 다음과 같다. {LOD [차원] : 집계식} 대표적 LOD 사례인 FIXED를 알아보면, FI..