일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Big Query
- Docker error
- 도커오류
- tableau
- 데이터엔지니어링
- 코테
- ifkakao2020
- 도커exec
- spark #스파크
- docker
- 태블로
- BigQuery
- 시각화
- 빅쿼리
- 언어모델
- LLM
- 도커
- spark df
- PySpark
- airflow
- spark explode
- SparkSQL
- 프로그래머스 파이썬
- 데이터 시각화
- 로컬 pyspark
- sparkdf
- DataFrame Spark
- dataframe
- pyspark오류
- 빅쿼리 튜닝
- Today
- Total
목록SOGM'S Data (44)
SOGM'S Data

최종 업데이트 날짜: 2021/08/22 - 청약은 공공주택/ 민영주택 2가지가 있음 - 특별공급 (신혼, 생애최초 등) , 일반공급 1순위, 2순위가 있는데 민영주택이 공공주택보다 물량이 많음. 이 포스팅에선 일반공급에 대해 다룸. - 공공분양은 초대 전용 85m2만 나온다. 전용 25.7평으로 환산된다. 일반공급 1순위 조건 민간분양: 해당지역 2년이상 거주(보통 수도권의 경우 해당지역 시-도-수도권순으로 경쟁) + 무주택 세대구성원 + 종합 청약 저축 통장 2년 이상 경과된 사람 + 납입금이 해당지역 기준 납입금 이상 공공분양: 해당지역 2년이상 거주(보통 수도권의 경우 해당지역 시-도-수도권순으로 경쟁) + 과거 5년이내 당첨X+ 무주택 세대주 + 종합 청약 저축 통장 2년 이상 경과된 사람 + ..

우연히 NDC2019에서 발견한 데브시스터즈의 박주홍님이 발표해주신 Spark, Airflow 관련 엔지니어링 발표한 내용을 정리해보았습니다. 1. 서론 -데이터가 많아지면 ? 메모리와 디스크 부하! -데이터 엔지니어링은 데이터의 부하 분산이 핵심 2. 본론 -spark란? 분산처리엔진 - 강의의 핵심사진 Driver가 master의 역할, Executor가 분산처리를 수행 1. flintrock 도입 AS-IS 와 문제점: 어떠한 분석 요청이 와서 해당 분석을하기 위해 aws에 spark를 1대 띄우는데 드는 시간이 3분이라하면 (물론 돈이 많다면 항상 spark를 띄어놓겠지만 현실적인 비용문제) 오늘 접속한 유저의 정보를 탐색하는데는 2대가 필요하는데 6분이걸린다. 하지만 지난 주의 접속한 유저 정보..

# 분석패널 1. 상수& 평균 라인 : 분석탭-> 상수라인, 평균라인 차트에 특정 상수라인을 표시 가로줄 뿐만아니라. 세로 줄도 가능하다. 아래는 4/15일에 세로줄 넣기 2.추세선 분석탭- 추세선 선형, 로그, 지수, 다항식, 거듭제곱 추세선을 넣을 수 있습니다. 위와 같이 다항식으로 표현한 경우 추세선이 훨씬 더 유의미한 정보를 내포합니다. x축(할인율)이 증가할수록 y축(이익)이 선형보다 훨씬 감소하는 폭이 가파른 것을 확인할 수 있습니다. 3.예측 분석탭- 예측 태블로는 지수평활법을 기준으로 예측을 합니다 예측된 부분에서 우클릭 후 - 예측옵션에 가면 계절적 변동을 반영 여부 등 을 파악할 수 있습니다. 추세를 가법으로 할 것인지 승법으로 할 것인지도 알 수 있습니다. 4.클러스터링 분석탭- 클러..

1.이중축 설정 두 개의 필드의 집계값을 넣고 축 범위를 서로 다르게 보기위해서 하는 작업입니다. 하나의 필드를 우클릭 후 이중축 클릭 마크 부분 막대로 변경하면 아래와 같습니다. 그러나 두 개의 필드 값이 비슷한 경우 겹치는 현상이 발생합니다. 해결하기 위해 하나의 필드값의 크기를 조절합니다. 작업 후 결과는 아래와 같습니다. 그러나 왼쪽과 오른쪽의 스케일 값이 달라 실제론 매출과 이익이 값 크기(규모)가 다른데도 비슷하게 표현됩니다. 해결하기 위해 오른쪽의 축을 우클릭 - '축 동기화' 를 클릭합니다. 짜잔 왼쪽과 오른쪽의 싱크가 맞게 나옴. 즉 매출이 이익보다 훨씬 큰 값이라는 것이 표현됩니다. *주의 축의 값의 규모 차이가 서로 너무 크면 '축 동기화'를 안하는게 나은 경우도 있기 때문에 시각화 ..

1) 태블로는 엑셀과 달리 데이터를 '집계'한 방식으로 보여주기 때문에 '데이터를 얼마나 쪼개서 보여주느냐'가 핵심입니다. - 태블로의 측정값에는 레코드 수라는 것이 있는데 이것의 합계가 1이 되면 데이터를 원본수준으로 쪼갠것입니다. -아래 예시) Employee Name이라는 행으로 레코드 수를 나타내면 오른쪽 상단 '합계(레코드 수)'가 1이다. 즉 , 해당 필드로 쪼개는 순간 모든 레코드가 나오는 것 - 안나오는 예시 Manager Name, Sex 필드를 이용하면 불가능 '합계(레코드 수)'가 19 로 표기됨. = 덜 쪼개짐 하지만 데이터를 끝까지 나눌 수 없는 Data SET도 물론 존재합니다. -> 유니크한 KEY 필드가 없는 경우 그렇기 떄문에 데이터 원본을 보지 않고 태블로의 집계 결과가 ..