일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- sparkdf
- docker
- 시각화
- 도커오류
- 태블로
- 로컬 pyspark
- LLM
- 프로그래머스 파이썬
- 도커exec
- spark explode
- dataframe
- airflow
- 빅쿼리 튜닝
- Big Query
- BigQuery
- 빅쿼리
- pyspark오류
- 도커
- spark df
- DataFrame Spark
- 데이터엔지니어링
- SparkSQL
- Docker error
- PySpark
- 언어모델
- 코테
- tableau
- spark #스파크
- 데이터 시각화
- ifkakao2020
- Today
- Total
목록About Data/Visualization (6)
SOGM'S Data
LOD: 세부 수준 계산식 태블로는 LOD(세부수준계산식) 개념이 있다. 앞서 포스팅에서 태블로는 '집계'의 함수였다. 그렇기 때문에 특정 수준(LEVEL)의 집계가 기본 DEFAULT이다. 예를 들어, 전세계의 GDP의 정보가 담긴 테이블을 태블로에 연동하여 GDP의 합계 혹은 평균 등을 특정 수준 (국가별, 수도별, 주요도시별)로 볼 수 있다. ( 국가, 수도, 주요도시 차원을 선반위로 올려주면 됨 ) 이때 테이블,패널의 범위와 방향에 따라 재계산이 달라질 수 있으므로 유의해야함. 이 LEVEL을 벗어나기 위해서는 LOD와 같은 세부 수준 계산식을 만들어 줘야한다. 계산된 필드에서 LOD를 만들어주는 방법은 다음과 같다. {LOD [차원] : 집계식} 대표적 LOD 사례인 FIXED를 알아보면, FI..

# 분석패널 1. 상수& 평균 라인 : 분석탭-> 상수라인, 평균라인 차트에 특정 상수라인을 표시 가로줄 뿐만아니라. 세로 줄도 가능하다. 아래는 4/15일에 세로줄 넣기 2.추세선 분석탭- 추세선 선형, 로그, 지수, 다항식, 거듭제곱 추세선을 넣을 수 있습니다. 위와 같이 다항식으로 표현한 경우 추세선이 훨씬 더 유의미한 정보를 내포합니다. x축(할인율)이 증가할수록 y축(이익)이 선형보다 훨씬 감소하는 폭이 가파른 것을 확인할 수 있습니다. 3.예측 분석탭- 예측 태블로는 지수평활법을 기준으로 예측을 합니다 예측된 부분에서 우클릭 후 - 예측옵션에 가면 계절적 변동을 반영 여부 등 을 파악할 수 있습니다. 추세를 가법으로 할 것인지 승법으로 할 것인지도 알 수 있습니다. 4.클러스터링 분석탭- 클러..

1.이중축 설정 두 개의 필드의 집계값을 넣고 축 범위를 서로 다르게 보기위해서 하는 작업입니다. 하나의 필드를 우클릭 후 이중축 클릭 마크 부분 막대로 변경하면 아래와 같습니다. 그러나 두 개의 필드 값이 비슷한 경우 겹치는 현상이 발생합니다. 해결하기 위해 하나의 필드값의 크기를 조절합니다. 작업 후 결과는 아래와 같습니다. 그러나 왼쪽과 오른쪽의 스케일 값이 달라 실제론 매출과 이익이 값 크기(규모)가 다른데도 비슷하게 표현됩니다. 해결하기 위해 오른쪽의 축을 우클릭 - '축 동기화' 를 클릭합니다. 짜잔 왼쪽과 오른쪽의 싱크가 맞게 나옴. 즉 매출이 이익보다 훨씬 큰 값이라는 것이 표현됩니다. *주의 축의 값의 규모 차이가 서로 너무 크면 '축 동기화'를 안하는게 나은 경우도 있기 때문에 시각화 ..

1) 태블로는 엑셀과 달리 데이터를 '집계'한 방식으로 보여주기 때문에 '데이터를 얼마나 쪼개서 보여주느냐'가 핵심입니다. - 태블로의 측정값에는 레코드 수라는 것이 있는데 이것의 합계가 1이 되면 데이터를 원본수준으로 쪼갠것입니다. -아래 예시) Employee Name이라는 행으로 레코드 수를 나타내면 오른쪽 상단 '합계(레코드 수)'가 1이다. 즉 , 해당 필드로 쪼개는 순간 모든 레코드가 나오는 것 - 안나오는 예시 Manager Name, Sex 필드를 이용하면 불가능 '합계(레코드 수)'가 19 로 표기됨. = 덜 쪼개짐 하지만 데이터를 끝까지 나눌 수 없는 Data SET도 물론 존재합니다. -> 유니크한 KEY 필드가 없는 경우 그렇기 떄문에 데이터 원본을 보지 않고 태블로의 집계 결과가 ..

1.히트맵- 각각의 필드 범위대로 색상 부여하기 1) 현재문제는 여러 필드가 하나의 기준으로인해 색상이 부여된모습. * Quantity는 값 범위가 작아 모든 값이 어두운 모습 2) 측정값 색상 필드 우클릭 - 별도의 범례사용 3) 짜잔 4) 색상이 너무 중구난방이면 1번 더블클릭후 2번에서 조정 * 양수로 뻗어나가는 값은 단일 색상이 좋음 5)짜잔 2. 트리맵 (1개 이상의 차원 1개 or 2개의 측정값) 1) 크기별- sales, 색상별 -profit 으로 설정된 트리맵 해석 예시) - Technology가 다른 카테고리보다 sales 자체가 크다. - Furniture 카테고리에서 Bookcases 서브카테고리는 profit이 좋지 못하다. 단 트리맵의 단점은 넓이로 표현되기 때문에 그 넓이가 직관..