'About Data' 카테고리의 글 목록 (4 Page)

Notice

왈가왈부 x 왈왈가부 o

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록About Data (32)

SOGM'S Data

2) 태블로 LOD(세부계산식) 함수

LOD: 세부 수준 계산식 태블로는 LOD(세부수준계산식) 개념이 있다. 앞서 포스팅에서 태블로는 '집계'의 함수였다. 그렇기 때문에 특정 수준(LEVEL)의 집계가 기본 DEFAULT이다. 예를 들어, 전세계의 GDP의 정보가 담긴 테이블을 태블로에 연동하여 GDP의 합계 혹은 평균 등을 특정 수준 (국가별, 수도별, 주요도시별)로 볼 수 있다. ( 국가, 수도, 주요도시 차원을 선반위로 올려주면 됨 ) 이때 테이블,패널의 범위와 방향에 따라 재계산이 달라질 수 있으므로 유의해야함. 이 LEVEL을 벗어나기 위해서는 LOD와 같은 세부 수준 계산식을 만들어 줘야한다. 계산된 필드에서 LOD를 만들어주는 방법은 다음과 같다. {LOD [차원] : 집계식} 대표적 LOD 사례인 FIXED를 알아보면, FI..

About Data/Visualization 2021. 9. 7. 00:21

[NDC 2019] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산 처리 자동화 인프라 구축 _ 내용정리

우연히 NDC2019에서 발견한 데브시스터즈의 박주홍님이 발표해주신 Spark, Airflow 관련 엔지니어링 발표한 내용을 정리해보았습니다. 1. 서론 -데이터가 많아지면 ? 메모리와 디스크 부하! -데이터 엔지니어링은 데이터의 부하 분산이 핵심 2. 본론 -spark란? 분산처리엔진 - 강의의 핵심사진 Driver가 master의 역할, Executor가 분산처리를 수행 1. flintrock 도입 AS-IS 와 문제점: 어떠한 분석 요청이 와서 해당 분석을하기 위해 aws에 spark를 1대 띄우는데 드는 시간이 3분이라하면 (물론 돈이 많다면 항상 spark를 띄어놓겠지만 현실적인 비용문제) 오늘 접속한 유저의 정보를 탐색하는데는 2대가 필요하는데 6분이걸린다. 하지만 지난 주의 접속한 유저 정보..

About Data/Engineering 2021. 8. 22. 19:42

1-5)태블로 유용한 TIP 모음 ( Feat.인프런)

# 분석패널 1. 상수& 평균 라인 : 분석탭-> 상수라인, 평균라인 차트에 특정 상수라인을 표시 가로줄 뿐만아니라. 세로 줄도 가능하다. 아래는 4/15일에 세로줄 넣기 2.추세선 분석탭- 추세선 선형, 로그, 지수, 다항식, 거듭제곱 추세선을 넣을 수 있습니다. 위와 같이 다항식으로 표현한 경우 추세선이 훨씬 더 유의미한 정보를 내포합니다. x축(할인율)이 증가할수록 y축(이익)이 선형보다 훨씬 감소하는 폭이 가파른 것을 확인할 수 있습니다. 3.예측 분석탭- 예측 태블로는 지수평활법을 기준으로 예측을 합니다 예측된 부분에서 우클릭 후 - 예측옵션에 가면 계절적 변동을 반영 여부 등 을 파악할 수 있습니다. 추세를 가법으로 할 것인지 승법으로 할 것인지도 알 수 있습니다. 4.클러스터링 분석탭- 클러..

About Data/Visualization 2021. 8. 16. 22:36

1-4)태블로 유용한 TIP 모음 ( Feat.인프런)

1.이중축 설정 두 개의 필드의 집계값을 넣고 축 범위를 서로 다르게 보기위해서 하는 작업입니다. 하나의 필드를 우클릭 후 이중축 클릭 마크 부분 막대로 변경하면 아래와 같습니다. 그러나 두 개의 필드 값이 비슷한 경우 겹치는 현상이 발생합니다. 해결하기 위해 하나의 필드값의 크기를 조절합니다. 작업 후 결과는 아래와 같습니다. 그러나 왼쪽과 오른쪽의 스케일 값이 달라 실제론 매출과 이익이 값 크기(규모)가 다른데도 비슷하게 표현됩니다. 해결하기 위해 오른쪽의 축을 우클릭 - '축 동기화' 를 클릭합니다. 짜잔 왼쪽과 오른쪽의 싱크가 맞게 나옴. 즉 매출이 이익보다 훨씬 큰 값이라는 것이 표현됩니다. *주의 축의 값의 규모 차이가 서로 너무 크면 '축 동기화'를 안하는게 나은 경우도 있기 때문에 시각화 ..

About Data/Visualization 2021. 7. 25. 18:57

1-3)태블로 유용한 TIP 모음 ( Feat.인프런)

1) 태블로는 엑셀과 달리 데이터를 '집계'한 방식으로 보여주기 때문에 '데이터를 얼마나 쪼개서 보여주느냐'가 핵심입니다. - 태블로의 측정값에는 레코드 수라는 것이 있는데 이것의 합계가 1이 되면 데이터를 원본수준으로 쪼갠것입니다. -아래 예시) Employee Name이라는 행으로 레코드 수를 나타내면 오른쪽 상단 '합계(레코드 수)'가 1이다. 즉 , 해당 필드로 쪼개는 순간 모든 레코드가 나오는 것 - 안나오는 예시 Manager Name, Sex 필드를 이용하면 불가능 '합계(레코드 수)'가 19 로 표기됨. = 덜 쪼개짐 하지만 데이터를 끝까지 나눌 수 없는 Data SET도 물론 존재합니다. -> 유니크한 KEY 필드가 없는 경우 그렇기 떄문에 데이터 원본을 보지 않고 태블로의 집계 결과가 ..

About Data/Visualization 2021. 7. 25. 17:51

Prev 1 2 3 4 5 6 7 Next

목록About Data (32)

SOGM'S Data

티스토리툴바