일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 시각화
- 프로그래머스 파이썬
- dataframe
- tableau
- 빅쿼리
- 언어모델
- 데이터엔지니어링
- pyspark오류
- 로컬 pyspark
- 도커exec
- 코테
- spark explode
- 도커오류
- LLM
- Big Query
- spark df
- sparkdf
- SparkSQL
- Docker error
- 도커
- BigQuery
- spark #스파크
- DataFrame Spark
- airflow
- 태블로
- 빅쿼리 튜닝
- ifkakao2020
- PySpark
- 데이터 시각화
- docker
- Today
- Total
목록SOGM'S Data (44)
SOGM'S Data

지난 포스팅에서 MLE와 딥러닝과의 관계를 말하면서 결국 우리가 자주 사용하는 CE 손실함수는 LIkelihood를 최소화하는 MLL에서의 파라미터를 찾는 것과 같다는 것을 알았다. 지난 포스팅 참고:walwalgabu.tistory.com/entry/MLE%EC%99%80-MAP-%EA%B7%B8%EB%A6%AC%EA%B3%A0-%EB%94%A5%EB%9F%AC%EB%8B%9D%EA%B3%BC%EC%9D%98-%EA%B4%80%EA%B3%84%EC%97%90-%EB%8C%80%ED%95%B41?category=945132 MLE와 MAP 그리고 딥러닝과의 관계에 대해...[1] Likelihood (가능도, 우도) - 입력으로 주어진 확률 분포(파라미터)가 얼마나 데이터를 잘 설명하는지 나타내는 점수 ..

Likelihood (가능도, 우도)- 입력으로 주어진 확률 분포(파라미터)가 얼마나 데이터를 잘 설명하는지 나타내는 점수* 데이터를 잘 설명한다 -> 해당 확률 분포에서 높은 확률 값을 가지는 것을 의미한다. 어떠한 현상에 있어 확률 변수 x와 x의 확률의 곱의 합이 가능도가 된다. 그러나 우리는 확률의 곱이 무수히 시행되면 그 값이 작아지게 되고 ( 분모가 무한대로 커지므로 ) 컴퓨터의덧셈 연산의 장점을 위해 , 우도를 출력하는 함수에 log를 씌워서 log-likelihood로 변경한다. 그렇다면 우리가 해야할 일은 위에 있는 log-likelihood를 가장 최대화 하는 세타θ 를 찾아야한다.이때 어떠한 log-likelihood를 우도함수라고 한다면 이 함수는 위로 볼록한 함수이다. 이때 최..

NDCG란? (Normalized Discounted Cumulative Gain) - 추천시스템에서 랭킹 추천 분야에 많이 쓰이는 평가지표 - 기존 정보검색에서 많이 쓰였으며 , 특히 상위의 랭킹 리스트가 하위 랭킹 리스트 보다 확연하게 중요한 도메인에서는 유용한 평가 기준 Ex) TV나 영화 프로그램 K개를 랭킹순으로 추천해주는 도메인 우선 CG라는 개념을 알아야 합니다. Cumulative Gain(CG)란 관련성 점수를 합한 값입니다. 이때 관련성 점수는(Relavance Score) 는 사용자가 추천된 각 아이템을 얼마나 선호하는지를 나타내는 점수입니다. 보통의 경우 raw_data의 rating 값이 많이 사용됩니다. 이때 사용자 u가 item j에 대한 관련성 점수를 rel_uj라 할 때 이..
이번 포스팅에서는 추천시스템이 개선 해야할 과제들과 고려해야하는 것들에 대해 다뤄보겠습니다. 1. Scalability - 실제 서비스 상황은 다양한 데이터이기 때문에 학습 그리고 분석 데이터와 전혀 다름.- 학습에 이용된 추천알고리즘을 실전에 이용할 수 있는가? 즉, 확장성에 대한 고려가 필요하다. 2. Proactive Recommender System- 모바일 인터넷 등 어디서든 유저에게 끊임없이 좋은 정보를 추천할 수 있는 서비스 3. Cold Start Problem- 추천서비스를 위한 초기 데이터 부족 문제- 협업 필터링의 대표적 단점 4. Privacy - User의 민감 정보 혹은 개인 정보를 어디까지 추천에 적용할 수 있는지에 대한 윤리적/법적 고려사항 5. Long term and ..

카카오에서 지난 11월 if(kakao)2020으로 다양한 강의들이 마련되어있었다. 그중 추천팀에서 시행한 개인화 콘텐츠 푸시 고도화 후기 강의를 듣고 나름대로 정리를 해보았다. 1. 콘텐츠 푸쉬에 대하여. 어떠한 Business Problem을 Machine Learning System를 잘 설계해서 풀고, 서비스에 적용해서 성과를 낼 수 있음. 문제 & 설계 : 문제 정의& 그것을 해결하기 위한 시스템 설계 * 알고리즘은 자세히 다루지 않는다. 콘텐츠를 push 하는 경우의 목적: 유저 활성화 - 잘 안쓰는 사람을 쓰도록 만드는 것. (비활성화 유저) - 이미 쓰는 사람이 더 많이 쓰게 만드는 것. (활성화 유저) 비활성 유저들은 푸시를 거의 클릭하지 않는다!. 해결방안은? 누구나 좋아하는 컨텐츠를 ..