Dealing with Text
텍스트의 형태
Why Text is Difficult
문맥 : 앞 뒤 전 후 상황
Text Representation
document를 모아놓은 것을 corpus 라고 한다.
document 안에는 token 이 있다. token = 그냥 단어
document를 하나의 instance로 본다.
“Bag of Words”
Bag of words 는 문법이나 순서나 마침표 같은 것을 구분하지 않고 그냥 bag에 넣었을 때 Value는 무엇인가?
-> 그 단어가 존재하지 않으면 그 document는 boolean으로 0으로 표현하고 있으면 1로 표현한다.
Pre-processing of Text
Stop-words : the and of 같은 그렇게 의미 없는 단어들
이것을 찾아내야 한다.
Term Frequency
Normalized Term Frequency
TF-IDF
IDF : 희귀성 있는 Term의 가치를 높여준다.
Term Frequency x 희귀성 = TFIDF
(전체 문서의 갯수 / t를 가지고 있는 문서의 갯수)
IDF(t)
IDF 그래프
term 의 희소성이 높으면 값이 높다.
term 이 가지고 있는 document가 늘어날수록 흔하므로 값이 낮아진다. -> 이건 stop-words 구나
TF-IDF
TF : specific한 document 하나의 term frequency
IDF : specific한 document 하나가 아니라 모든 corpus (모든 document)에서의 weight 이다.
각각의 document가 하나의 feature vector가 되고 corpus는 feature vectors 가 된다.
개수가 점점 커지면 커질수록 feature selection을 잘 해야한다.
장점
전체 다 사용했을 경우 어떤 vector의 차원 수가 높아지기 때문에 줄일 수가 있고,
모든 feature가 equal 하다는 가정 하에서 계산하는 것보다 복잡도를 줄여줄 수 있다.
Example: Jazz Musicians
stop word를 거치고도 2000개의 feature가 만들어 졌다.
play와 jazz 의 TFIDF에서는 낮아졌고
latin, famous, kansas 는 TFIDF 값이 높아졌다.
각각 simmilarity를 계산해보자.
찰리 파커가 가장 높게 나왔다.
'💡 AI > ML' 카테고리의 다른 글
기계학습기초1 정리 (0) | 2021.06.16 |
---|---|
ML W14 - Representing and Mining Text (0) | 2021.06.12 |
ML W12-2 - Evidence and Probabilities: Prediction via Evidence Combination (0) | 2021.06.10 |
ML W12-2 - Visualizing Model Performance (0) | 2021.06.10 |
ML W11-2 - Visualizing Model Performance (0) | 2021.05.15 |