일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 도커오류
- 프로그래머스 파이썬
- SparkSQL
- BigQuery
- spark #스파크
- pyspark오류
- spark explode
- DataFrame Spark
- airflow
- tableau
- 데이터엔지니어링
- 비주얼라이제이션
- 데이터 시각화
- 도커exec
- docker
- 태블로
- 빅쿼리
- PySpark
- spark df
- Big Query
- 코테
- 빅쿼리 튜닝
- dataframe
- 시각화
- ifkakao2020
- Docker error
- 도커
- explode
- 로컬 pyspark
- sparkdf
Archives
- Today
- Total
목록airflow (1)
SOGM'S Data
[NDC 2019] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산 처리 자동화 인프라 구축 _ 내용정리
우연히 NDC2019에서 발견한 데브시스터즈의 박주홍님이 발표해주신 Spark, Airflow 관련 엔지니어링 발표한 내용을 정리해보았습니다. 1. 서론 -데이터가 많아지면 ? 메모리와 디스크 부하! -데이터 엔지니어링은 데이터의 부하 분산이 핵심 2. 본론 -spark란? 분산처리엔진 - 강의의 핵심사진 Driver가 master의 역할, Executor가 분산처리를 수행 1. flintrock 도입 AS-IS 와 문제점: 어떠한 분석 요청이 와서 해당 분석을하기 위해 aws에 spark를 1대 띄우는데 드는 시간이 3분이라하면 (물론 돈이 많다면 항상 spark를 띄어놓겠지만 현실적인 비용문제) 오늘 접속한 유저의 정보를 탐색하는데는 2대가 필요하는데 6분이걸린다. 하지만 지난 주의 접속한 유저 정보..
About Data/Engineering
2021. 8. 22. 19:42