Published 2021. 6. 11. 12:25

ML W13 - Representing and Mining Text

💡 AI/ML

Dealing with Text

텍스트의 형태

Why Text is Difficult

문맥 : 앞 뒤 전 후 상황

Text Representation

document를 모아놓은 것을 corpus 라고 한다.

document 안에는 token 이 있다. token = 그냥 단어

document를 하나의 instance로 본다.

“Bag of Words”

Bag of words 는 문법이나 순서나 마침표 같은 것을 구분하지 않고 그냥 bag에 넣었을 때 Value는 무엇인가?

-> 그 단어가 존재하지 않으면 그 document는 boolean으로 0으로 표현하고 있으면 1로 표현한다.

Pre-processing of Text

Stop-words : the and of 같은 그렇게 의미 없는 단어들

이것을 찾아내야 한다.

Term Frequency

Normalized Term Frequency

TF-IDF

IDF : 희귀성 있는 Term의 가치를 높여준다.

Term Frequency x 희귀성 = TFIDF

(전체 문서의 갯수 / t를 가지고 있는 문서의 갯수)

IDF(t)

IDF 그래프

term 의 희소성이 높으면 값이 높다.

term 이 가지고 있는 document가 늘어날수록 흔하므로 값이 낮아진다. -> 이건 stop-words 구나

TF-IDF

TF : specific한 document 하나의 term frequency

IDF : specific한 document 하나가 아니라 모든 corpus (모든 document)에서의 weight 이다.

각각의 document가 하나의 feature vector가 되고 corpus는 feature vectors 가 된다.

개수가 점점 커지면 커질수록 feature selection을 잘 해야한다.

장점

전체 다 사용했을 경우 어떤 vector의 차원 수가 높아지기 때문에 줄일 수가 있고,

모든 feature가 equal 하다는 가정 하에서 계산하는 것보다 복잡도를 줄여줄 수 있다.

Example: Jazz Musicians

stop word를 거치고도 2000개의 feature가 만들어 졌다.

play와 jazz 의 TFIDF에서는 낮아졌고

latin, famous, kansas 는 TFIDF 값이 높아졌다.

각각 simmilarity를 계산해보자.

찰리 파커가 가장 높게 나왔다.

'💡 AI > ML' 카테고리의 다른 글

기계학습기초1 정리 (0)	2021.06.16
ML W14 - Representing and Mining Text (0)	2021.06.12
ML W12-2 - Evidence and Probabilities: Prediction via Evidence Combination (0)	2021.06.10
ML W12-2 - Visualizing Model Performance (0)	2021.06.10
ML W11-2 - Visualizing Model Performance (0)	2021.05.15

ML W13 - Representing and Mining Text

Dealing with Text

Why Text is Difficult

Text Representation

“Bag of Words”

Pre-processing of Text

Term Frequency

Normalized Term Frequency

TF-IDF

IDF(t)

TF-IDF

Example: Jazz Musicians

'💡 AI > ML' 카테고리의 다른 글

티스토리툴바