일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 데이터엔지니어링
- pyspark오류
- 프로그래머스 파이썬
- 비주얼라이제이션
- dataframe
- 빅쿼리
- 도커exec
- 로컬 pyspark
- explode
- spark #스파크
- PySpark
- 시각화
- BigQuery
- 빅쿼리 튜닝
- spark explode
- Big Query
- airflow
- DataFrame Spark
- Docker error
- 도커오류
- ifkakao2020
- SparkSQL
- spark df
- 코테
- docker
- tableau
- 데이터 시각화
- sparkdf
- 태블로
- 도커
- Today
- Total
목록About Data (30)
SOGM'S Data
우연히 NDC2019에서 발견한 데브시스터즈의 박주홍님이 발표해주신 Spark, Airflow 관련 엔지니어링 발표한 내용을 정리해보았습니다. 1. 서론 -데이터가 많아지면 ? 메모리와 디스크 부하! -데이터 엔지니어링은 데이터의 부하 분산이 핵심 2. 본론 -spark란? 분산처리엔진 - 강의의 핵심사진 Driver가 master의 역할, Executor가 분산처리를 수행 1. flintrock 도입 AS-IS 와 문제점: 어떠한 분석 요청이 와서 해당 분석을하기 위해 aws에 spark를 1대 띄우는데 드는 시간이 3분이라하면 (물론 돈이 많다면 항상 spark를 띄어놓겠지만 현실적인 비용문제) 오늘 접속한 유저의 정보를 탐색하는데는 2대가 필요하는데 6분이걸린다. 하지만 지난 주의 접속한 유저 정보..
# 분석패널 1. 상수& 평균 라인 : 분석탭-> 상수라인, 평균라인 차트에 특정 상수라인을 표시 가로줄 뿐만아니라. 세로 줄도 가능하다. 아래는 4/15일에 세로줄 넣기 2.추세선 분석탭- 추세선 선형, 로그, 지수, 다항식, 거듭제곱 추세선을 넣을 수 있습니다. 위와 같이 다항식으로 표현한 경우 추세선이 훨씬 더 유의미한 정보를 내포합니다. x축(할인율)이 증가할수록 y축(이익)이 선형보다 훨씬 감소하는 폭이 가파른 것을 확인할 수 있습니다. 3.예측 분석탭- 예측 태블로는 지수평활법을 기준으로 예측을 합니다 예측된 부분에서 우클릭 후 - 예측옵션에 가면 계절적 변동을 반영 여부 등 을 파악할 수 있습니다. 추세를 가법으로 할 것인지 승법으로 할 것인지도 알 수 있습니다. 4.클러스터링 분석탭- 클러..
1.이중축 설정 두 개의 필드의 집계값을 넣고 축 범위를 서로 다르게 보기위해서 하는 작업입니다. 하나의 필드를 우클릭 후 이중축 클릭 마크 부분 막대로 변경하면 아래와 같습니다. 그러나 두 개의 필드 값이 비슷한 경우 겹치는 현상이 발생합니다. 해결하기 위해 하나의 필드값의 크기를 조절합니다. 작업 후 결과는 아래와 같습니다. 그러나 왼쪽과 오른쪽의 스케일 값이 달라 실제론 매출과 이익이 값 크기(규모)가 다른데도 비슷하게 표현됩니다. 해결하기 위해 오른쪽의 축을 우클릭 - '축 동기화' 를 클릭합니다. 짜잔 왼쪽과 오른쪽의 싱크가 맞게 나옴. 즉 매출이 이익보다 훨씬 큰 값이라는 것이 표현됩니다. *주의 축의 값의 규모 차이가 서로 너무 크면 '축 동기화'를 안하는게 나은 경우도 있기 때문에 시각화 ..
1) 태블로는 엑셀과 달리 데이터를 '집계'한 방식으로 보여주기 때문에 '데이터를 얼마나 쪼개서 보여주느냐'가 핵심입니다. - 태블로의 측정값에는 레코드 수라는 것이 있는데 이것의 합계가 1이 되면 데이터를 원본수준으로 쪼갠것입니다. -아래 예시) Employee Name이라는 행으로 레코드 수를 나타내면 오른쪽 상단 '합계(레코드 수)'가 1이다. 즉 , 해당 필드로 쪼개는 순간 모든 레코드가 나오는 것 - 안나오는 예시 Manager Name, Sex 필드를 이용하면 불가능 '합계(레코드 수)'가 19 로 표기됨. = 덜 쪼개짐 하지만 데이터를 끝까지 나눌 수 없는 Data SET도 물론 존재합니다. -> 유니크한 KEY 필드가 없는 경우 그렇기 떄문에 데이터 원본을 보지 않고 태블로의 집계 결과가 ..
1.히트맵- 각각의 필드 범위대로 색상 부여하기 1) 현재문제는 여러 필드가 하나의 기준으로인해 색상이 부여된모습. * Quantity는 값 범위가 작아 모든 값이 어두운 모습 2) 측정값 색상 필드 우클릭 - 별도의 범례사용 3) 짜잔 4) 색상이 너무 중구난방이면 1번 더블클릭후 2번에서 조정 * 양수로 뻗어나가는 값은 단일 색상이 좋음 5)짜잔 2. 트리맵 (1개 이상의 차원 1개 or 2개의 측정값) 1) 크기별- sales, 색상별 -profit 으로 설정된 트리맵 해석 예시) - Technology가 다른 카테고리보다 sales 자체가 크다. - Furniture 카테고리에서 Bookcases 서브카테고리는 profit이 좋지 못하다. 단 트리맵의 단점은 넓이로 표현되기 때문에 그 넓이가 직관..