목록딥러닝 (23)
JUstory

NBCF의 한계Sparsity (희소성) 문제- 데이터가 충분하지 않다면 추천 성능이 떨어진다.- 데이터가 부족하거나 혹은 아예 없는 유저, 아이템의 경우 추천이 불가능하다.Scalability (확장성) 문제- 유저와 아이템이 늘어날수록 유사도 계산이 늘어난다.- 유저, 아이템이 많아야 정확한 예측을 하지만 반대로 시간이 오래 걸린다. Model Based Collaborative Filtering (MBCF)모델 기반 협업 필터링: 항목 간 유사성을 단순 비교하는 것에서 벗어나 데이터에 내재한 패턴을 이용해 추천하는 CF 기법 NBCF와의 차이점Parametric Machine Learning을 사용주어진 데이터를 사용하여 모델 학습데이터 정보가 파라미터의 형태로 모델에 압축모델의 파라미터는 데이터..

Collaborative Filtering (CF): '많은 유저들로부터 얻은 기호 정보'를 이용해 유저의 관심사를 자동으로 예측하는 방법- 더 많은 유저/ 아이템 데이터가 축적될수록 협업의 효과는 커지고 추천은 정확해질 것이란 가정에서 출발 최종 목적 : 유저 u가 아이템 i에 부여할 평점을 예측하는 것 방법1. 주어진 데이터를 활용해 유저- 아이템 행렬을 생성한다.2. 유사도 기준을 정하고, 유저 혹은 아이템 간의 유사도를 구한다.3. 주어진 평점과 유사도를 활용하여 행렬의 비어 있는 값(평점)을 예측한다. CF 기반 추천 시스템의 원리: 유전 A와 비슷한 취향을 가진 유저들이 선호하는 아이템을 추천- 아이템이 가진 속성을 사용하지 않으면서도 높은 추천 성능을 보임Properties of CF전통적인..

연관분석연관 규칙 분석 (Association Rule Analysis, Association Rule Mining): 상품의 구매, 조회 등 하나의 연속된 거래들 사이의 규칙을 발견하기 위해 적용함ex) 맥주와 기저귀를 같이 구매하는 빈도가 얼마나 되는가? / 컴퓨터를 산 고객이 다음에 가장 많이 사는 상품은 무엇인가?주어진 transaction (거래) 데이터에 대해서, 하나의 상품이 등장했을 때 다른 상품이 같이 등장하는 규칙을 찾는 것 연관 규칙규칙: IF(condition) THEN(result)연관 규칙: IF(antecendent) THEN(consequent) / 특정 사건이 발생했을때 함께 빈번하게 발생하는 또 다른 사건의 규칙Itemset: antecedent와 consequent가 각..

개요추천 시스템의 필요성1. 과거에는 유저가 접할 수 있는 상품, 컨텐츠가 제한적2. 웹/ 모바일 환경은 다양한 상품, 컨텐츠를 등장하게 함Long Tail Phenomenon3. 정보를 찾는데 시간이 오래 걸림 Long Tail 영역을 두껍게 만들어서 개인화된 컨텐츠를 소비할 수 있도록 도와주는 것! 사용 데이터1. 유저 관련 정보유저 프로파일링: 추천 대상 유저에 관련된 정보를 구축하여, 개별 유저 혹은 유저 그룹별로 추천함식별자: 유저 ID, 디바이스 ID, 브라우저 쿠키데모그래픽 정보: 성별, 연령, 지역, 관심사유저 행동 정보: 페이지 방문 기록, 아이템 평가, 구매 등의 피드백 기록 2. 아이템 관련 정보아이템 프로파일링: 아이템 ID, 아이템의 고유 정보 3. 유저-아이템 상호작용 정보 유..

과적합 방지를 위한 정규화 [L1 정규화]Lasso Regression일부 가중치를 0으로 만들어 변수를 선택 [L2 정규화]Ridge Regression전체적으로 가중치를 작게 만듦 [Dropout]뉴런끼리 값을 주고받을 때 학습 과정에서 무작위로 뉴런을 비활성화학습마다 뉴런의 조합이 달라지기 때문에 과적합에 강건해짐 작동방식1. 각 레이어마다 지정된 확률에 따라 뉴런을 비활성화 (일반적으로 0.5)2. 선택된 뉴런의 출력값은 03. 이 과정을 각 학습 배치마다 반봅4. 예측 시에는 모든 뉴런을 사용class Net(nn.Module): def __init__(self, use_dropout=False): super(Net, self).__init__() self.fc..
[Linear Regression]: 하나의 독립 변수로 하나의 종속 변수를 예측$$Y = aX +b$$ [Multiple Regression]: 여러 개의 독립 변수로 하나의 종속 변수를 예측$$Y = \sum_{i=0}^{n}{a_{n}}{X_{n}} +b$$ [선형 회귀의 가정]1. 선형성잔차가 무작위로 분포해야 선형성을 만족한다고 할 수 있다. 방법오차와 예측 값 간의 그래프를 시각화한 후 y=0 을 기준으로 무작위로 분포했는지 확인해야 한다. 해결방법만족하지 않을 경우, 비선형 변환 (로그 변환, 제곱근 변환) or 비선형 회귀 모델을 활용 (결정 트리) 2. 독립성하나의 잔차가 다른 잔차에 영향을 미치지 않아야 한다.방법잔차 플롯: 오차와 예측 값 간의 그래프를 시각화한 후 y=0 을 기준으..