IDF : term이 rare하면 올라가고, term이 보편적이면 값이 떨어진다.
엔트로피가 가장 크게 나타나는 곳은 그래프가 겹칠 때이다.
Beyond Bag of words
N-gram Sequences
시퀀스를 보호해주는 것
전후좌우 몇개까지 봐줘야 될까? = N개
Named Entity Extraction
Topic Models
문서를 요약하는 방법은 키워드이다.
그럴려면 document와 키워드를 연결해주어야 하고 그것을 가능하게 해주는 것이 Topic layer이다.
또한 이러한 모델을 Topic Model 이라고 한다.
Topic Models
Text Mining Example
Problems and Assumptions
Mining News Stories to Predict Stock Price Movement
데이터의 레이블을 이렇게 생각할 수 있다.
Data
Mining News Stories to Predict Stock Price Movement
주가 변동에 따라 태그함.
3가지 AUC가 0.5가 넘기 때문에 긍적적이라고 볼 수 있다.
news article들이 stock price와 연결되어 있다고 판단할 수 있다.
20% 정도의 인스턴스를 취했을 때 2배정도 정확성이 높다는 것을 Lift curve를 통해 알 수 있다.
전체 example을 보았을 때보다 상위 20%의 단어를 보았을 때 positive한 predict를 할 수 있다.
'💡 AI > ML' 카테고리의 다른 글
기계학습기초2 정리 (0) | 2021.06.16 |
---|---|
기계학습기초1 정리 (0) | 2021.06.16 |
ML W13 - Representing and Mining Text (0) | 2021.06.11 |
ML W12-2 - Evidence and Probabilities: Prediction via Evidence Combination (0) | 2021.06.10 |
ML W12-2 - Visualizing Model Performance (0) | 2021.06.10 |