Surprise
2021. 11. 10. 16:39
💡 AI/RecSys
데이터로딩 Reader : 데이터 컬럼 format, rating, scaling Dataset : Built-in, OS, DataFrame에서 데이터 로딩 모델 선정 및 학습 추천 알고리즘 설정 : SVD, KNNBasic 등 Train 데이터로 학습 : train() 예측 및 평가 예측 : test(), predict() 평가 : accuracy, rmse 등 교차검증 : cross_validate 하이퍼 파라미터 GridSearchCV 이런 데이터 포멧으로 고정이 되어 있다. userid, itemid, rating(평점) 1. 필요한 라이브러리 로딩 from surprise import SVD, Dataset, accuracy from surprise.model_selection import t..
Item-Item Collaborative Filtering (Movie Dataset)
2021. 10. 29. 14:48
💡 AI/RecSys
협업필터링 유형 최근접 이웃 기반 (Nearlist Neighbor) 사용자 기반 (User-user CF) 아이템 기반 (Item-item CF) 잠재요인 기반 (Latent Factor) 행렬 분해 기반 (Matrix Factorization) 특징 User behavior(item 구매 이력, 영화 평점 이력)에만 기반하여 추천 알고리즘들을 전반적으로 지칭한다. 상품, 영화 등 사용자가 아직 평가하지 않은 item에 대한 평가(rating)을 예측하는 것이 주요 역할이다. row 레벨 형태의 User-Item 평점 데이터 User ID Item ID Rating user1 item1 3 user1 item3 3 user2 item1 4 user2 item2 1 user3 item4 5 ↓ 위의 데이..
Contents Based Filtering (Movie Dataset)
2021. 10. 5. 17:25
💡 AI/RecSys
Contents-Based Filtering 기법 영화 구성 콘텐츠 텍스트 ↓ 피처 벡터화 (Count, TF-IDF) ↓ 코사인 유사도 ↓ 유사도 및 평점에 따른 영화 추천 Contents-Based Filtering 구현 프로세스 콘텐츠에 대한 여러 텍스트 정보들을 피처 벡터화 코사인 유사도로 콘텐츠별 유사도 계산 콘텐츠 별로 가중 평점을 계산 유사도가 높은 콘텐츠 중에 평점이 좋은 콘텐츠 순으로 추천 캐글 Movie dataset : https://www.kaggle.com/tmdb/tmdb-movie-metadata TMDB 5000 Movie Dataset Metadata on ~5,000 movies from TMDb www.kaggle.com 파일 읽어오기 import pandas as pd..
SKT AI - 추천시스템
2021. 9. 29. 16:03
💡 AI/RecSys
추천시스템 지속적인 피드백을 통한 선순환 추천과 검색은 다르다. 시나리오 시작이 다르다. 사용자는 자신이 찾고자하는 객체에 대해서 쿼리를 날린다. 사용자의 명시적인 요청자체가 필요가 없다. 아무런 요청을 날리지 않아도 내 의사와 상관없이 제공된다. 객체 자체를 특정하지 않은 요청이 있다. 대상에 대해서 지정을 하고 있지 않기 때문이다. 다만 선호의 개념은 있다. 얼마나 좋아하고 싫어하는지에 대한 개념은 있다. 추천 시스템은 사람들의 요청에 대한 의도가 검색 시스템과 정반대이다. 시나리오의 방향성 자체가 다르고 들어오는 쿼리자체가 다르기 때문에 해결하는 방법 자체가 다르다. 추천 시스템이란 사용자들이 좋아할만한 것들을 발견할 수 있도록 도와주는 시스템이다. 정보 검색과의 차이를 명확하게 알아야 한다. 사용..