
최소 제곱법
2020. 3. 25. 10:44
✏️ Mathemathics/Statistics and Probability
최소제곱법은 자료들 사이에서 패턴을 도출해내는데 쓰인다. 아주 직관적이고 간단하기 때문에, 수치해석, 회귀분석 등 다양한 통계학적 접근의 기본이 된다. 다음 그래프를 보자, 각 자료가 흩뿌려져 있는데, 이 점 들 사이에 일관성을 찾기 위해 그래프 f(x)를 도출한다고 가정하자. 각 점들과 그래프 간의 차이를 residual이라고 한다. 그래프는 가장 오차가 적어야 한다. 오차가 적어야 하다는 것은 각 점들과 그래프 간의 오차가 가장 최소가 되는 f(x)를 찾아야한다는 것을 의미한다. 수식으로 나타내면 아래와 같다. 변수 x와 상수 B가 주어졌을 때, 식은 다음과 같다. f(x)는 선형인 일차 함수로 가정을 한다. x와 y는 주어지는 값이니, residual의 최소값은 기울기 a와 절편 b로 결정된다. 각..

p-value
2020. 3. 23. 22:34
✏️ Mathemathics/Statistics and Probability
p-value는, 귀무가설(null hypothesis, H0)이 맞다는 전제 하에, 통계값(statistics)이 실제로 관측된 값 이상일 확률을 의미한다. 일반적으로 p-value는 어떤 가설을 전제로, 그 가설이 맞는다는 가정 하에, 내가 현재 구한 통계값이 얼마나 자주 나올 것인가, 를 의미한다고 할 수 있다. p-value는 가설검정이라는 것이 전체 데이터를 갖고 하는 것이 아닌 sampling 된 데이터를 갖고 하는 것이기 때문에 필요하게 되는데, 다음과 같은 경우를 살펴 보자. 다음과 같이 모분포가 10,000 개의 값으로 되어 있다고 하자. 위 모분포의 평균은 100.3023 이다. 가설 검증이라는 것은 모분포를 전부 검증할 수 없기 때문에 모분포에서 일부만 추출하여(그렇게 추출된 것을 s..

단순 선형 회귀분석
2020. 3. 23. 13:52
✏️ Mathemathics/Statistics and Probability
어느 화학자가 온도에 따른 화학물질의 반응속도를 예측하고자 한다. 그러면 온도(x)와 속도(y)를 나타내는 두 변수에 의해 표현되는 함수 관계를 얻을 수 있다. 이때, 화학반응물의 속도와 상품의 판매량에 영향을 미치는 변수를 독립변수(independent variable) 또는 설명변수(explanatory variable)이라고 한다. 그리고 속도와 판매량을 나타내는 변수와 같이 독립변수의 변화에 영향을 받는 변수를 종속변수(dependent variable) 또는 반응변수(response variable)라고 한다. x : 독립변수, 설명변수, 입력변수 y : 종속변수, 반응변수, 출력변수 독립변수와 종속변수 사이의 관계를 통계적으로 분석하는 방법을 회귀분석(regression analysis)라 한..

왜 n-1로 나누는가?
2020. 3. 17. 20:39
✏️ Mathemathics/Statistics and Probability
모집단의 분산 모집단에서 표본은 뽑았다. 이 표본의 분산을 구할 때는 n이 아닌 n-1로 나눠준다. 그 이유에 대해 알아보자 불편추정량 때문이고, 결과적으로는 자유도와 연결된다. 면저 용어 설명부터 가자. 자유도는 독립변수의 개수를 의미한다. 예를 들어 x + y + z = 3 이라는 방정식이 있을 때, 독립변수가 3개 인 것처럼 보이지만 실제로는 그렇지 않다. x, y가 1과 0으로 결정되었다면 z = 2를 갖게 된다. z는 종속변수인 것이다. 따라서 이 방정식의 독립변수는 2개이고 자유도는 2가 된다. 이번에는 불편추정량에 대해 알아보자. 불편추정량의 '편'이란 글자는 '편의'이다. 영어로는 bias이다. 불편추정량은 '편의가 없는 추정량' 이라는 뜻이다. 이제 '편의'가 무슨 의미인지 알아야 한다...

감마 분포 (Gamma Distribution)
2020. 3. 17. 20:26
✏️ Mathemathics/Statistics and Probability
번개를 한번 맞을 때까지의 시간이 지수분포라면 번개를 n 번 맞을 때까지의 시간은 감마분포이다. 따라서 지수분포는 감마분포의 한 종류이다. n = 1 이면 지수분포 n > 1 이면 감마분포 알파 = 발생 횟수 베타 = 1회 발생 간격 지수분포의 합이 곧 감마분포다 라고 이해해라

지수분포 (Exponential Distribution)
2020. 3. 16. 17:19
✏️ Mathemathics/Statistics and Probability
기하분포의 개념을 연속적으로 가져간 것이 지수분포이다. 지수분포는 첫번째 사고가 발생할 때까지 걸린 시간에 대한 확률분포이다. 통계에서 대문자가 의미하는 것은 확률변수이다. 소문자는 그 확률변수가 갖는 값이다. T>t는 사고가 발생하지 않았다는 것이다. 건수 = 0이다 F(t)에서 확률밀도함수(누적분포함수) 구하기 : F(t) 미분하기 지수분포는 어떤 사건에 대한 발생을 알기 때문에 굉장히 중요하다. 포아송분포를 거꾸로 하면 지수분포가 나온다. 엄밀히 말하면 기하 분포는 n번의 실패중에 첫번째 성공할 확률이고 지수 분포는 기하분포의 시간버젼이다. 처음에 크다가 점점 작아지는 분포 1년에 평균 4회정도 발생한다. 1년에 1/4년이니까 3개월에 한번씩 발생한다는 것을 알 수 있다. 1개월 이내에 발생할 확률..

균등 분포 (Uniform Distribution)
2020. 3. 16. 16:10
✏️ Mathemathics/Statistics and Probability
밀도함수의 면적은 곧 확률이다. 밀도함수의 면적을 적분 = 면적 = 확률 분포함수 는 항상 누적이란 말을 앞에 생략해 놓는다 : 누적분포함수 (x-1)/4은 x까지의 누적 확률이다. 참 쉽죠?

확률과 통계2 1주 1강
2020. 3. 16. 16:04
✏️ Mathemathics/Statistics and Probability
중간 - 100점 기말 - 100점 과제 - 20점 (2회) 퀴즈 - 40점 출석 - 10점 중간, 기말 합 40점 미만 F 내가 이 프로그램을 개발했을 때 테스트 해볼 때 가설 검정을 해야한다. 표준화라는 것은 평균을 0으로 하고 분산을 1로 하는 것이다. 표준화 하는 방법 : X - E(X)/루트분산

포아송 분포 (Poisson Distribution)
2020. 3. 12. 17:11
✏️ Mathemathics/Statistics and Probability
1. 정의 포아송 분포에 붙은 '포아송'은 사람의 이름이다. 포아송은 1791년 프랑스에서 태어났다. 그의 직업은 공학자, 수학자, 물리학자였다. 기계나 재료를 전공한 분이라면 반드시 들어보았을 포아송비(poisson's ratio)도 이분이 만들었다. 에펠탑에 이름이 새겨진 72명의 과학자 중 한명이라고 한다. 포아송분포는 이항분포의 특수한 경우로 생각할 수 있다. 이항분포에서 시행횟수가 무수히 많아지고, 발생확률은 아주 작은 경우이다. 한가지 의문이 든다. 그럼 그냥 이항분포로 계산하면 되지, 왜 굳이 포아송분포가 필요한거야? 이 의문을 해결해 보자. 거리를 돌아다니다가 길냥이를 본 적이 있을 것이다. 하루종일 거리를 돌아다니다 마주치는 길냥이의 수를 확률변수로 놓고 확률분포를 구해보자. 길냥이를 마..

음이항 분포(Negative Binomial Distribution)
2020. 3. 12. 13:09
✏️ Mathemathics/Statistics and Probability
목차 음이항 분포의 정의 예시 일반화 평균 분산 그래프 이름의 유래 1. 음이항 분포의 정의 이미 배운 기하분포를 떠올려 보자. 음이항 분포는 기하분포의 확장이라고 볼 수 있다. 더 정확히 말하면 음이항 분포의 여러 정의 중 하나가 기하분포의 확정버전이다. 기하분포의 정의는 이랬다. 성송확률을 p라고 했을 때, x번째 시행에서 처음으로 성공할 확률 p(x)의 분포 이 정의를 k번째로 바꾸면 된다. 성공확률을 p라고 했을 때, x번째 시행에서 k번째 성공이 나올 확률 p(x)의 분포 위 음이항분포를 보면, 사전에 정의되어야할 값이 성공확률 p말고 k도 있다. p와 k가 정해져야 확률분포함수가 정의된다는 말이다. 그러나 음이항 분포는 위의 정의 말고 또 다른 정의가 있다. 위의 정의는 일반적인 음이항 분포의..

기하 분포 (Geometric distribution)
2020. 3. 9. 18:13
✏️ Mathemathics/Statistics and Probability
1. 정의 베르누이 시행을 반복할 때, 처음 성공이 나오기까지 시행한 횟수를 확률변수 X로 할 때의 확률분포 이다. 예를 들어 확률변수 4의 확률은 "실패-실패-실패-성공"인 경우의 확률이다. 또 다른 정의도 있는데 , 처음 성공이 나오기까지 실패한 횟수를 확률변수로 하는 경우도 있다. 2. 예시 연애를 시작한 남녀가 결혼할 확률은 5퍼센트라고 가정하자. x번째 사귄 이성과 결혼하게 될 확률분포가 기하분포이다. 3. 일반화 어떤 사건이 발생할 확률을 p라고 하자. 사건이 발생하지 않을 확률은 1-p이다. 성공과 실패로 봐도 된다. 이때 기하분포는 아래와 같다. 확률변수 x는 모두 자연수이다. x = 성공할때까지의 시행 횟수 기호로는 아래와 같이 나타낸다. 4. 통계량 (1) 평균 시그마를 전개해 보자. ..

이항 분포 (Binomial Distribution)
2020. 3. 9. 16:06
✏️ Mathemathics/Statistics and Probability
1. 정의 베르누이 시행을 n번 했다. 각 시행이 독립이라는 것은 베르누이 시행 조건중 하나이다. 따라서 베르누이 시행이라고 하면 따로 독립을 언급할 필요가 없다. 이 시행에서 발생할 확률을 p라고 하자. 사건이 발생한 횟수를 확률변수 x로 했을 때의 분포가 이항분포이다 2. 예시 3. 일반화 어떤 독립시행에서 특정 사건이 발생할 확률은 p이다. 이 시행을 n번 했을 때, 사건이 발생할 횟수를 x라고 하자. 이 때의 확률 분포가 이항분포이고 아래와 같다. 시행 횟수가 n, 사건 발생 확률이 p인 이항분포를 기호로 표현하면 아래와 같다. B는 binomial의 약자이다. 4. 통계랑 (1) 평균 구하기 x가 0일 때는 값이 0이므로 시그마의 시작을 1부터로 바꿀 수 있다. 아래와 같이 변형하자. p와 n은..

베르누이 분포
2020. 3. 9. 15:20
✏️ Mathemathics/Statistics and Probability
1. 정의 시행의 결과가 오로지 2가지 인 확률 분포 : 성공, 실패 베르누이 시행이 라고 불리는게 맞다 2. 예시 동전의 앞면, 뒷면 주사위의 2가 나올 시행, 나머지가 나올 시행 시행의 결과가 오직 2가지 뿐인 시행 : 베르누이 시행 3. 통계량 시행이 성공 했을 때의 확률변수는 1이고 실패 했을 때의 확률변수는 0이므로 E(x) = p V(x) = pq 4. 그래프

t-분포
2020. 2. 5. 21:39
✏️ Mathemathics/Statistics and Probability
t-분포 t-분포는 모집단의 표준편차를 알 수 없을 때 자유도 수로 정의되는 계량형 분포입니다. 예를 들어 t-분포의 용도 중 하나는 모집단의 평균과 가설 평균이 서로 다른지 검정하는 것입니다. 회귀 계수의 유의성 검정에도 t-분포를 사용합니다. t-분포는 자유도 수에 의해 지정되는 계량형 분포입니다. 정규 분포와 비슷하지만 꼬리 부분이 더 두꺼운 종 모양의 대칭적인 분포입니다. 예를 들어, 다음 그래프는 자유도가 다른 t-분포들을 보여줍니다. 실선으로 표시된 t-분포의 자유도는 1입니다. 파선으로 표시된 t-분포의 자유도는 100입니다. t-test는 어떻게 하는가? T-test를 하기 위해서는 몇 가지 조건이 필요하다. 크게 3 가지로 아래와 같다. 괄호에 넣은 건 무슨 말인지 몰라도 된다. 표본이 ..

상관계수
2020. 2. 5. 17:38
✏️ Mathemathics/Statistics and Probability
상관 계수에 대한 주요 결과 해석 Minitab 18 에 대해 자세히 알아보기 상관 분석을 해석하려면 다음 단계를 수행하십시오. 주요 결과에는 Pearson 상관 계수, Spearman 상관 계수 및 p-값이 포함됩니다. 이 항목의 내용 1단계: 변수 사이의 선형 관계 조사(Pearson) 2단계: 상관 계수가 유의한지 여부 확인 3단계: 변수 사이의 단순 관계 조사(Spearman) 1단계: 변수 사이의 선형 관계 조사(Pearson) 두 계량형 변수 사이의 선형 관계의 강도와 방향을 조사하려면 Pearson 상관 계수를 사용합니다. 강도 상관 계수 값의 범위는 −1부터 +1까지입니다. 계수의 절대값이 클수록 변수 사이에 강한 관계가 있습니다. Pearson 상관의 경우 절대값 1은 완전한 선형 관계를..