모수적 방법(parametric method): 관측 값이 어느 특정한 확률분포, 예를 들면 정규분포, 이항분 포 등을 따른다고 전제한 후 그 분포의 모수(parameter)에 대한 검정을 실시하는 방법이다. 

 

비모수적 방법(nonparametric method): 관측 값이 어느 특정한 확률분포를 따른다고 전제할 수 없거나 또는 모집단에 대한 아무런 정보가 없는 경우에 실시하는 검정방법으로 모수에 대한 언급 이 없으며 분포무관 방법이라고도 한다. 요약하면 자료가 정규분포가 아니거나 표본의 크기가 작으면 분포에 대한 기본가정을 필요로 하지 않는 통계적 기법이다.

 

 

 

  1. Non-parametric: 데이터의 feature와 생존 시간 분포 정보를 사용하지 않는 방법입니다. 분포 정보를 알 수 없을 때 유용하지만 예측이 부정확할 수 있습니다.
  2. Semi-parametric: feature 정보를 활용하지만, 생존 시간 분포 정보를 사용하지 않는 방법입니다. Cox Proportional Hazard 모델이 해당합니다.
  3. Parametric: 생존 시간 분포가 존재한다고 가정하고 회귀 모델로 생존 시간을 예측하는 기법입니다. 지수 분포, 베이불(Weibull) 분포, 로지스틱(Logistic) 분포, 정규 분포 등을 사용합니다.

 


1. 생존분석함수

생존분석 함수는 개인의 생존시간 T가 확률변수 (random variable) 라고 생각했을 때 이와 관련된 함수를 의미한다.


2. Survival function

2.1. S(t) = P(T > t)

특정 시점 t에서 살아 있을 확률을 나타내는 함수이다. 즉, 이것은 event time T가 t보다 클 확률이다. 

 

F(t) : 특정시점 t까지 event가 발생했을 확률을 말한다. 이는 1-S(t)이다. f(t)의 cdf (cumulative density function)이다.

f(t) : 특정 시점 t에서 event가 발생할 확률을 나타내는 함수이다. (이것은 probability density function 이다.) 그리고 f(t)는 F(t)의 t에 대한 미분이다.


3. Hazard function

h(t) : t까지 살았을 때, 직후에 바로 event가 일어날 조건부 확률을 나타낸다.

h(t) = f(t)/S(t) 로 나타내어 지는데, 아래 식을 통해 확인해 보자.



 

직접 f(t)/S(t)를 계산해보면 조건부확률의 계산공식을 통해 양변이 같다는 것을 확인할 수 있다.

 

 

why? h(t) 라는 것은 1-S(t)를 미분한 것을 다시 S(t) 로 나눈 것이다. 이를 만족하는 S(t)는 위의 S(t) 밖에 없다. (if and only if 이다.)


4. Kaplan-Meier estimation

관찰 시간에 따라 사건이 발생한 시점의 사건 발생률을 계산하는 생존 분석 방법

 

Censoring이 있는 데이터에서 생존함수를 추정하는 비모수적인 방법이다. 만약 censoring이 아예 없다면, 생존함수는 그 시점에서 살아있는 사람을 보면 된다.  하지만 right-censoring이 있는 경우 해당시점에서 살아있는 사람은 censoring 된 사람을 제외한 사람일 것이고, 이 경우에 살아있는 사람만 계산하게 되면  생존 함수가 잘못 추정되게 된다.  따라서 censoring이 있을 때, 그 사람이 t시점까지 살았다는것을 활용하여 각 시점에서 survival rate을 구하여 계속 곱하면서 survival function을 추정한다.

 

점선은 20년에서 전체 환자 그룹의 36퍼센트가 생존해있다는 것을 말한다.

 


5. 콕스 비례위험모형 (Cox's proportional hazard model)

hyperconnect.github.io/2019/08/22/survival-analysis-part2.html

 

Survival Analysis (2/3)

Survival Analysis를 활용한 고객 이탈 예측 방법을 소개합니다.

hyperconnect.github.io

 

 

reference

모수적, 비모수적 방법 : contents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik4/13.pdf

콕스 : bioinformaticsandme.tistory.com/223

생존분석함수 : https://3months.tistory.com/349 [Deep Play]

 

 

 

 

 

 

 

 

 

 

 

 

 

'📌 Paper > Deepsurv' 카테고리의 다른 글

Deepsurv - 실행 과정  (0) 2021.01.20
Deepsurv - method 및 관련 개념  (0) 2021.01.18
Deepsurv 논문 읽기  (0) 2021.01.11
Tensorflow - Theano - Torch - Keras - Lasagne  (0) 2021.01.04
Deepsurv 설치 및 실행 과정  (0) 2021.01.04
복사했습니다!