일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 태블로
- 시각화
- 데이터 시각화
- pyspark오류
- BigQuery
- LLM
- dataframe
- 코테
- 도커
- docker
- SparkSQL
- 빅쿼리
- ifkakao2020
- spark df
- spark explode
- 데이터엔지니어링
- PySpark
- Docker error
- Big Query
- sparkdf
- 언어모델
- 빅쿼리 튜닝
- airflow
- tableau
- spark #스파크
- 도커exec
- 프로그래머스 파이썬
- 도커오류
- 로컬 pyspark
- DataFrame Spark
- Today
- Total
목록전체 글 (44)
SOGM'S Data

Collaborative Filtering for Implicit Feedback Datasets, IEEE 오늘 날 추천시스템의 가장 큰 줄기가 되는 MF기법중 사용자가 아이템에 남긴 평점(Explicit Datasets)이 아닌 Implicit Feedback Dataset을 이용하는 추천시스템이다. 우리 사회의 대부분의 비지니스는 고객이 어떤 물건에 평가하고 점수를 메기는 데이터를 가지고 있지않다. 즉, 대부분의 데이터는 사용자가 어떠한 item을 봤거나 , 구매 이력, 혹은 마우스 움직임까지 로그로 기록되어 있는 implicit data 이다. 이 논문은 implicit data를 다룰 때 explicit data를 다루는 알고리즘과 구분 짓기 위한 implicit data의 몇 가지 특징들을 다..

이해하면 까먹고 , 손에 잡힐 것 같으면서 안잡히는 PCA를 이해해봅시다.직관적인 이해를 위해 수학적인 요소는 빼보았습니다! 일단 거두절미하고 PCA의 가장 큰 목적은 차원을 축소하고 차원을 추출하는데 필요합니다. 우선 PCA(Principal component analysis)는 주성분 분석을 뜻하는데, 위와 같은 그림은 우리가 흔히 PCA를 볼때 가장 잘 아는 그림입니다. PCA는 어떠한 데이터 분포를 분산이 가장 큰 방향으로 정사영하며 이뤄진다.즉, 어떠한 데이터의 분포를 설명할 때 2가지 벡터로만 간단하게 설명하고 싶다면? 위에 있는 두 화살표들(벡터들) 이 데이터의 분포를 가장 잘 설명할 수 있는데 해당 벡터들은 분산이 가장 큰 방향으로 생성된다는 뜻입니다. 아래 쉬운단어로 표현했습니다. ..

SVD 말로만 들어도 헷갈리는 이론을 한 번 직관적으로 풀어나가보고 싶어나가보겠습니다. 고유값 고유벡터를 배우면서 SVD,PCA와 같은 차원축소에 대해 궁금하신 분들이 많을 것입니다. 이 글을 통해 SVD를 설명하고 간단한 데이터 셋으로 SVD(Truncated 된)를 이용한 추천시스템 구현을 설명하고자합니다. (단 이 글은 고유값과 고유벡터의 정의와 구하는 방식을 아신다고 가정하고 글을 썼습니다) SVD란 무엇인가? (Singular Value Decomposition, 특이값 분해) 출처:www.fun-coding.org/recommend_basic6.html 데이터 분석(추천시스템): SVD (SVD와 Latent Factor 모형) - 잔재미코딩 $$ r_{ui} = p_u \cdot q_i $$..
ㅎㅎㅎㅎ