Dealing with Text

텍스트의 형태


Why Text is Difficult

문맥 : 앞 뒤 전 후 상황

 


Text Representation

document를 모아놓은 것을 corpus 라고 한다.

document 안에는 token 이 있다. token = 그냥 단어

document를 하나의 instance로 본다.


“Bag of Words”

Bag of words 는 문법이나 순서나 마침표 같은 것을 구분하지 않고 그냥 bag에 넣었을 때 Value는 무엇인가?

-> 그 단어가 존재하지 않으면 그 document는 boolean으로 0으로 표현하고 있으면 1로 표현한다.


Pre-processing of Text

Stop-words : the and of 같은 그렇게 의미 없는 단어들

이것을 찾아내야 한다. 

 


Term Frequency


Normalized Term Frequency


TF-IDF

IDF : 희귀성 있는 Term의 가치를 높여준다.

 

Term Frequency x 희귀성 = TFIDF

 

(전체 문서의 갯수 / t를 가지고 있는 문서의 갯수)


IDF(t)

IDF 그래프

term 의 희소성이 높으면 값이 높다.

term 이 가지고 있는 document가 늘어날수록 흔하므로 값이 낮아진다. -> 이건 stop-words 구나


TF-IDF

TF : specific한 document 하나의 term frequency

IDF : specific한 document 하나가 아니라 모든 corpus (모든 document)에서의 weight 이다.

 

각각의 document가 하나의 feature vector가 되고 corpus는 feature vectors 가 된다.

 

개수가 점점 커지면 커질수록 feature selection을 잘 해야한다.

 

장점

전체 다 사용했을 경우 어떤 vector의 차원 수가 높아지기 때문에 줄일 수가 있고,

모든 feature가 equal 하다는 가정 하에서 계산하는 것보다 복잡도를 줄여줄 수 있다.


Example: Jazz Musicians

stop word를 거치고도 2000개의 feature가 만들어 졌다.

 

 

play와 jazz 의 TFIDF에서는 낮아졌고

latin, famous, kansas 는 TFIDF 값이 높아졌다.

 

각각 simmilarity를 계산해보자.

 

찰리 파커가 가장 높게 나왔다.

복사했습니다!