일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- SparkSQL
- 빅쿼리
- 비주얼라이제이션
- spark #스파크
- BigQuery
- 데이터 시각화
- 빅쿼리 튜닝
- spark df
- 도커exec
- 도커
- Big Query
- docker
- 프로그래머스 파이썬
- Docker error
- 코테
- PySpark
- 도커오류
- 데이터엔지니어링
- 태블로
- DataFrame Spark
- airflow
- 로컬 pyspark
- ifkakao2020
- pyspark오류
- spark explode
- sparkdf
- 시각화
- explode
- dataframe
- tableau
- Today
- Total
목록About Data/Recommender System (3)
SOGM'S Data
NDCG란? (Normalized Discounted Cumulative Gain) - 추천시스템에서 랭킹 추천 분야에 많이 쓰이는 평가지표 - 기존 정보검색에서 많이 쓰였으며 , 특히 상위의 랭킹 리스트가 하위 랭킹 리스트 보다 확연하게 중요한 도메인에서는 유용한 평가 기준 Ex) TV나 영화 프로그램 K개를 랭킹순으로 추천해주는 도메인 우선 CG라는 개념을 알아야 합니다. Cumulative Gain(CG)란 관련성 점수를 합한 값입니다. 이때 관련성 점수는(Relavance Score) 는 사용자가 추천된 각 아이템을 얼마나 선호하는지를 나타내는 점수입니다. 보통의 경우 raw_data의 rating 값이 많이 사용됩니다. 이때 사용자 u가 item j에 대한 관련성 점수를 rel_uj라 할 때 이..
카카오에서 지난 11월 if(kakao)2020으로 다양한 강의들이 마련되어있었다. 그중 추천팀에서 시행한 개인화 콘텐츠 푸시 고도화 후기 강의를 듣고 나름대로 정리를 해보았다. 1. 콘텐츠 푸쉬에 대하여. 어떠한 Business Problem을 Machine Learning System를 잘 설계해서 풀고, 서비스에 적용해서 성과를 낼 수 있음. 문제 & 설계 : 문제 정의& 그것을 해결하기 위한 시스템 설계 * 알고리즘은 자세히 다루지 않는다. 콘텐츠를 push 하는 경우의 목적: 유저 활성화 - 잘 안쓰는 사람을 쓰도록 만드는 것. (비활성화 유저) - 이미 쓰는 사람이 더 많이 쓰게 만드는 것. (활성화 유저) 비활성 유저들은 푸시를 거의 클릭하지 않는다!. 해결방안은? 누구나 좋아하는 컨텐츠를 ..
SVD 말로만 들어도 헷갈리는 이론을 한 번 직관적으로 풀어나가보고 싶어나가보겠습니다. 고유값 고유벡터를 배우면서 SVD,PCA와 같은 차원축소에 대해 궁금하신 분들이 많을 것입니다. 이 글을 통해 SVD를 설명하고 간단한 데이터 셋으로 SVD(Truncated 된)를 이용한 추천시스템 구현을 설명하고자합니다. (단 이 글은 고유값과 고유벡터의 정의와 구하는 방식을 아신다고 가정하고 글을 썼습니다) SVD란 무엇인가? (Singular Value Decomposition, 특이값 분해) 출처:www.fun-coding.org/recommend_basic6.html 데이터 분석(추천시스템): SVD (SVD와 Latent Factor 모형) - 잔재미코딩 $$ r_{ui} = p_u \cdot q_i $$..