일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 프로그래머스 파이썬
- tableau
- spark df
- ifkakao2020
- 코테
- 로컬 pyspark
- Big Query
- pyspark오류
- Docker error
- 비주얼라이제이션
- 도커
- 데이터엔지니어링
- airflow
- 데이터 시각화
- 태블로
- SparkSQL
- BigQuery
- 시각화
- explode
- spark #스파크
- 빅쿼리
- PySpark
- dataframe
- spark explode
- 도커오류
- 빅쿼리 튜닝
- 도커exec
- sparkdf
- DataFrame Spark
- docker
- Today
- Total
목록SOGM'S Data (42)
SOGM'S Data
Django (장고)! : "파이썬 웹 개발 대표 프레임워크" 장고로 배워보기로 했다. 배우는 이유는, 1) 파이썬을 사용하며 빠른 웹개발 배포가 가능한 점 2) 웹 개발지식을 쌓으면서 데이터 관련 웹 서비스에 대한 지식 확장 3) 단순 재미이다. (사실 진짜 이유) 블로그나 홈페이지 한 번 만들어보고 배포하는 과정을 경험해보고 싶다 ㅋㅋㅋ 우선 강의와 구글링을 통해 작업하고 있는데 나는 아나콘다 가상환경에서 장고를 통해 개발해보려한다. 우선 아나콘다의 경우 데이터 작업을 손쉽게 처리할 수 있는 서비스다. R , PYTHON뿐만 아니라 다양한 데이터 서비스를 담은 파이썬 배포판이다. 기존에 이걸 사용했기에 쥬피터 노트북을 통해 작업하려한다. 가상환경 만들기 우선 구글링을 통해 주피터 노트북 가상환경 설치..
LOD: 세부 수준 계산식 태블로는 LOD(세부수준계산식) 개념이 있다. 앞서 포스팅에서 태블로는 '집계'의 함수였다. 그렇기 때문에 특정 수준(LEVEL)의 집계가 기본 DEFAULT이다. 예를 들어, 전세계의 GDP의 정보가 담긴 테이블을 태블로에 연동하여 GDP의 합계 혹은 평균 등을 특정 수준 (국가별, 수도별, 주요도시별)로 볼 수 있다. ( 국가, 수도, 주요도시 차원을 선반위로 올려주면 됨 ) 이때 테이블,패널의 범위와 방향에 따라 재계산이 달라질 수 있으므로 유의해야함. 이 LEVEL을 벗어나기 위해서는 LOD와 같은 세부 수준 계산식을 만들어 줘야한다. 계산된 필드에서 LOD를 만들어주는 방법은 다음과 같다. {LOD [차원] : 집계식} 대표적 LOD 사례인 FIXED를 알아보면, FI..
우선 미국주식을 시작하게 된 배경은 꽤 긴데, 처음엔 단순히 23살에 아이폰을 사고 애플 제품에 매력을 느꼈다. (정확히는 애플 브랜드) APPL을 사기 위해 키움증권을 해외계좌를 만들었다. 이전까지는 나는 20살부터 한국주식을 했는데 그동안 해왔던 한국주식과는 규모나 성장 측면에서 너무나도 차이가 났다. 그 이후 돈이 막연한 더 잘 벌린다는 신념아래 내 증권계좌는 미국주식 85%, 한국주식 15%의 비율을 가졌다. 다만 맨날 수익률이 좋은건 아니라 이제부터 공부한 내용을 블로그에 하나씩 정리해보려고한다. -------- 우선 최근에 읽은 뉴욕주민의 미국투자 책을 보면, 미국투자를 해야하는 이유가 3가지가 있다. '미국 투자가 한국 투자 보다 나은 이유 세 가지' 첫째, 정치 리스크이다. 아무래도 한국은..
최종 업데이트 날짜: 2021/08/22 - 청약은 공공주택/ 민영주택 2가지가 있음 - 특별공급 (신혼, 생애최초 등) , 일반공급 1순위, 2순위가 있는데 민영주택이 공공주택보다 물량이 많음. 이 포스팅에선 일반공급에 대해 다룸. - 공공분양은 초대 전용 85m2만 나온다. 전용 25.7평으로 환산된다. 일반공급 1순위 조건 민간분양: 해당지역 2년이상 거주(보통 수도권의 경우 해당지역 시-도-수도권순으로 경쟁) + 무주택 세대구성원 + 종합 청약 저축 통장 2년 이상 경과된 사람 + 납입금이 해당지역 기준 납입금 이상 공공분양: 해당지역 2년이상 거주(보통 수도권의 경우 해당지역 시-도-수도권순으로 경쟁) + 과거 5년이내 당첨X+ 무주택 세대주 + 종합 청약 저축 통장 2년 이상 경과된 사람 + ..
우연히 NDC2019에서 발견한 데브시스터즈의 박주홍님이 발표해주신 Spark, Airflow 관련 엔지니어링 발표한 내용을 정리해보았습니다. 1. 서론 -데이터가 많아지면 ? 메모리와 디스크 부하! -데이터 엔지니어링은 데이터의 부하 분산이 핵심 2. 본론 -spark란? 분산처리엔진 - 강의의 핵심사진 Driver가 master의 역할, Executor가 분산처리를 수행 1. flintrock 도입 AS-IS 와 문제점: 어떠한 분석 요청이 와서 해당 분석을하기 위해 aws에 spark를 1대 띄우는데 드는 시간이 3분이라하면 (물론 돈이 많다면 항상 spark를 띄어놓겠지만 현실적인 비용문제) 오늘 접속한 유저의 정보를 탐색하는데는 2대가 필요하는데 6분이걸린다. 하지만 지난 주의 접속한 유저 정보..