Profit Curve

모든 컨디션은 불확실하고 안정되어 있지 않다.

따라서 다양한 모델을 만들어봐야 조합해 봐야한다.

 

Tree 썼을 때 가장 큰 profit

ROC

ROC(Receiver Operating Characteristic) curve는 다양한 threshold에 대한 이진분류기의 성능을 한번에 표시한 것이다.

이진 분류의 성능은 True Positive Rate와 False Positive Rate 두 가지를 이용해서 표현하게 된다.

ROC curve를 한 마디로 이야기하자면 ROC 커브는 좌상단에 붙어있는 커브가 더 좋은 분류기를 의미한다고 생각할 수 있다.

 

x축 False Positive, y축 True Positive

 

Positive”의 의미는 판단자가 “그렇다”라고 판별했다는 의미이다.

TrueFalse는 각각 ‘판단을 올바르게 했다’는 것과 ‘판단을 틀리게 했다’는 것을 표현한다.

 

 

겁이 많은 의사(모든 사람을 암환자로 판정) : FP, TP 모두 낮다.

겁이 없는 의사(모든 사람을 암환자로 판정) : FP, TP 모두 높다.

 

현 위의 점의 의미는 무엇인가?

 

 

현의 휨 정도가 의미하는 것은 무엇인가?

 

더 휘어있을 수록 클래스가 더 잘 구분될 수 있다.

 


kNN의 경우 

 

 

Lift Curve

  • 관찰치가 목표집단에 속하는지를 판별하는 분류모형의 성능을 평가 하기 위해서 매우 유용하게 사용되는 그래프 분석방법으로는 리프트 도표(lift chart)가 있다.

 

  • 분류 모형이 각집단에 속할 확률을 계산하고 단지 C1 또는 C0의 두 집단으로 분류하지 않을 경우 이에 적합한 매우 유용한 분석도구로 는 리프트 곡선(lift curve)이 있다.

 

오분류표 : 종속변수의 실제 범주와 예측 범주 사이의 관계를 나타내는 표

ROC : 두 분류분석 모형을 비교분석하여 그 결과를 가시화하는 표

Profit curve(이익 도표) : 등급별 이익값을 누적으로 연결한 도표

Lift curve(향상도 곡선) : 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프

 

Ref : https://angeloyeo.github.io/2020/08/05/ROC.html

복사했습니다!