article thumbnail image
Published 2021. 3. 15. 14:53

많은 양의 데이터가 과연 어디에 쓰일지, 질적으로 퀄리티가 얼마나 좋을지 염려가 되기도 한다.

 

의미있는 정보를 포함하는 target variable를 확보하는 것이 중요하다.

도메인 전문가와 머신러닝 전문가가 같이 소통하면서 일을 하게 된다.

 

어떤 성향의 고객은 떠나고 어떤 성향의 고객은 떠나지 않았다는 정보들로 레이블을 만들 수도 있다.

문제에 따라서 적절한, 데이터의 종류에 따라서 적절한 테크닉을 사용하는 것이 중요하다.

 

 

 

 

기계학습의 결과는 우리들의 좋은 의사결정에 쓰인다.

 

우리가 겪는 데이터는 굉장히 작다.

지식 기반의 프레임워크를 만드는 이유가 이것이기도 하다.

다른 많은 데이터를 고찰을 해봐야한다.

 

상황이라는 것이 의사결정의 방향을 다르게 할 수 있기 때문이다.

 

 

 

Classification : input 데이터가 주어진 class에 속하는지 결정해준다. 또는 얼마만큼의 확률로 속하는지도 알 수 있다.

 

 

binary question

가입을 할건지 안할건지에 대한 classification 문제

 

"Which

이런 인센티브를 줬을 때 어떤 것을 선택할지

binary가 아닌 3가지 value를 가지는 classification 문제

 

"How

quantity를 묻는 문제

 

 

 

 

데이터는 인위적으로 사람이 남겨놓은 기록이다.

그러나 실제 사용과는 일치하지 않는 경우가 많다.

실제로 비지니스 모델과 일치하는 작업을 한다. 이게 되어야지만 데이터와 모델이 일치하게 된다.

 

샘플이 잘못되면 아무리 모델이 좋아도, 좋은 결과가 나오지 않는다.

중요한 정보를 갖는 feature를 잘 골라야 한다.

 

 

찾고자하는 데이터는 일상 생활에서는 available 하지 않을 경우가 있다.

그럴 경우에는 대체할 수 있는 무언가를 찾아야 할 수도 있다.

 

 

 

 

 

데이터의 소스가 중요하다.

당뇨병 환자의 경우 여러 의사에게 진단을 받는 이유

 

 

 

 

Digression on features:
It is all about the timing in use!

 

 

'💡 AI > ML' 카테고리의 다른 글

ML W4-1-2 Fitting a Model to Data  (0) 2021.03.22
ML W4-1-1 Supervised Segmentation  (0) 2021.03.22
ML W3-2-2 - Supervised Segmentation  (0) 2021.03.18
ML W3-2-1 Supervised Segmentation  (0) 2021.03.18
ML W3-1-1 - Predictive Modeling  (0) 2021.03.15
복사했습니다!