IDF : term이 rare하면 올라가고, term이 보편적이면 값이 떨어진다.

엔트로피가 가장 크게 나타나는 곳은 그래프가 겹칠 때이다.


Beyond Bag of words


N-gram Sequences

시퀀스를 보호해주는 것

전후좌우 몇개까지 봐줘야 될까? = N개


Named Entity Extraction

 


Topic Models

문서를 요약하는 방법은 키워드이다.

그럴려면 document와 키워드를 연결해주어야 하고 그것을 가능하게 해주는 것이 Topic layer이다.

또한 이러한 모델을 Topic Model 이라고 한다.


Topic Models

 

 


Text Mining Example

 


Problems and Assumptions

 


Mining News Stories to Predict Stock Price Movement

데이터의 레이블을 이렇게 생각할 수 있다.

 


Data


Mining News Stories to Predict Stock Price Movement

주가 변동에 따라 태그함.

 


3가지 AUC가 0.5가 넘기 때문에 긍적적이라고 볼 수 있다.

news article들이 stock price와 연결되어 있다고 판단할 수 있다.


20% 정도의 인스턴스를 취했을 때 2배정도 정확성이 높다는 것을 Lift curve를 통해 알 수 있다.

전체 example을 보았을 때보다 상위 20%의 단어를 보았을 때 positive한 predict를 할 수 있다.

 

 

복사했습니다!