일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- DataFrame Spark
- pyspark오류
- dataframe
- explode
- PySpark
- 시각화
- tableau
- sparkdf
- BigQuery
- spark explode
- 도커오류
- airflow
- 태블로
- 데이터 시각화
- 프로그래머스 파이썬
- 데이터엔지니어링
- 빅쿼리
- SparkSQL
- docker
- 코테
- spark df
- 도커exec
- Big Query
- 빅쿼리 튜닝
- spark #스파크
- ifkakao2020
- 비주얼라이제이션
- 로컬 pyspark
- Docker error
- 도커
- Today
- Total
SOGM'S Data
1-3)태블로 유용한 TIP 모음 ( Feat.인프런) 본문
1) 태블로는 엑셀과 달리 데이터를 '집계'한 방식으로 보여주기 때문에 '데이터를 얼마나 쪼개서 보여주느냐'가 핵심입니다.
- 태블로의 측정값에는 레코드 수라는 것이 있는데 이것의 합계가 1이 되면 데이터를 원본수준으로 쪼갠것입니다.
-아래 예시) Employee Name이라는 행으로 레코드 수를 나타내면 오른쪽 상단 '합계(레코드 수)'가 1이다.
즉 , 해당 필드로 쪼개는 순간 모든 레코드가 나오는 것
- 안나오는 예시
Manager Name, Sex 필드를 이용하면 불가능 '합계(레코드 수)'가 19 로 표기됨. = 덜 쪼개짐
하지만 데이터를 끝까지 나눌 수 없는 Data SET도 물론 존재합니다.
-> 유니크한 KEY 필드가 없는 경우
그렇기 떄문에 데이터 원본을 보지 않고 태블로의 집계 결과가 보는 경우 크나큰 해석 오류 발생할 수 있습니다.
아래 예시)
구글 모바일 앱 매출 데이터 활용시, 앱별 리뷰 수를 보니 1등이 인스타그램이 가장 높게 나옵니다.
그렇다면 구글 앱중 리뷰 수 1위 앱은 인스타그램일까? -> NO
인스타그램 데이터를 좀 더 살 펴보겠습니다. 인스타그램 차트 부분 클릭 - 데이터 보기- 하단 '전체 데이터' 클릭
인스타그램의 레코드가 4줄 중복되었고 레코드 1줄당 리뷰 수가 6600만 정도이므로 위 계산된 약 2억5천만은 는
중복된 4줄의 레코드의 합산 리뷰 수인 것을 알 수 있다.
그렇다면 해결방법은?
아래와 같이 차원 옆 삼각형 펼치기 클릭 - '계산된 필드 만들기' 클릭
새로운 필드를 만들어주는 작업입니다.
MAX(REVIEWS) 함수를 취해준다 -> 4개의 레코드중 REVIEW의 값이 가장 큰 값을 대표값으로 하겠다는 의미입니다.
결과는 다음과 같습니다. 왼쪽( 계산된 필드 적용, 내림차순 정렬 적용), 오른쪽 기존값
즉, 왼쪽 차트에서 리뷰 수 내림차순 정렬기준 인스타그램은 리뷰 수 3위로 집계됩니다
즉, 정제된 팩트테이블을 연동하여 태블로를 사용하는 것이 아닌, 데이터의 집계까지 설계되지 않고 적재된 데이터를
태블로와 연결하여 사용할 때는 주의하여야합니다.
결론: 태블로는 집계의 툴이다! 그렇기 때문에 RAW DATE의 이해가 완전할때 비로소 강력한 도구가 된다!
*** 해당 포스트는 인프런 '웰컴 투 태블로'강의를 참고하였습니다.
'About Data > Visualization' 카테고리의 다른 글
2) 태블로 LOD(세부계산식) 함수 (0) | 2021.09.07 |
---|---|
1-5)태블로 유용한 TIP 모음 ( Feat.인프런) (0) | 2021.08.16 |
1-4)태블로 유용한 TIP 모음 ( Feat.인프런) (0) | 2021.07.25 |
1-2) 태블로 유용한 TIP 모음 ( Feat.인프런) (0) | 2021.07.25 |
1-1) 태블로 유용한 TIP 모음 ( Feat.인프런) (0) | 2021.07.25 |