계량경제학에서는 흔히 인과관계에 관심을 갖는다 여기서 인과관계란 '다른 조건이 동일할 경우 (ceteris paribus) 하나의 요소를 변화시켰을 때의 영향'을 의미한다. (...) 어떤 가정하에서 모집단의 속성 (모수 또는 파라미더라 함)으로써 표현해 보고, 이 모집단 파라미터를 추정하고 관련된 가설들을 검정함으로써 쓸모있는 일을 해 볼 것이다.
-
통계학의 기초
모집단, 표본 자료
표본을 한 번 관측하여 숫자들을 구하면 이 숫자들이 자료집합 (data set) 이 된다. 예를 들어 50쌍의 학력과 시급을 각각 1회 관측하면 50쌍의 숫자들의 집합이 구해질 것인데 이것이 바로 자료집합이다. 구분하자면, 표본은 관측할 것들로 이루어져 있고 자료집합은 관측한 값들로 이루어져 있다고 생각하면 되겠다.
상수, 변수, 확률변수
어떤 것의 값이 변하지 않으면 상수constant 라 하고, 그 값이 변할 수 있으면 변수variable라 한다. 특히 모집단으로부터 추출을 할 때 값이 변할 수 있으면 이를 확률변수random variable라 한다. 예를 들어 다양한 연령층으로 구성된 모집단에서 나이는 확률변수이다. 이 모집단으로부터 한 사람을 추출하여 나이를 관측하는 행위를 반복하면 관측되는 값이 달라질 수 있기 때문이다. 반면 주어진 모집단의 평균 나이는 상수이다.
- 그러나 나이_2의 모집단 평균은 상수이다. 나이_2의 모집단 평균은 '두 번째 사람'이 추출될 모집단의 평균 나이인데, 모집단의평균은 표본추출과 상관없이 고정되어 있기 때문이다.
- "변수"나 "상수"라는 말을 할 때에는 어떤 상황에서 변하거나 불변인지 그 기준을 분명히 해 주는 것이 좋다. 이 책에서 가장 흔한 기준은 모집단으로부터 값을 추출할 때그 값이 변하느냐 고정되었느냐의 따라 변수와 상수를 구분하는 것이다. 이 때에는 임의적, 비임의적이라는 용어를 더 많이 사용한다. 표본 내의 모든 개체들에게서 값이 동일할 때 상수라 하고 그 값이 다를 때 변수라 하기도 한다. 모집단 내에서 값이 동일하므로 표본을 추출하였을 때에도 표본 내 개체들에게서도 값이 동일하므로 표본을 추출하였을 때에도 표본 내 개체들에게서도 값이 동일할 것이므로 이렇게 보나 저렇게 보나 마찬가지일 수도 있지만 어떤 것을 의미하는지 분명히 아는 것이 좋다.
- 퇴화된 변수 (degenerate) 여성, 남성
X_i가 확률변수라는 말은, X_1, X_2, X_3, ... , X_n 이 서로간에 다름을 의미하는 것이 아니라, 각각의 i에서 X_i의 값이 표본추출 반복시행 시 변할 수 있음을 의마한다. 좀 더 정확한 표현은 X_1, X_2, X_3, ... , X_n 의 각각이 확률변수라는 것으로서, X_1 이 확률변수이고, X_2 도 확률변수이고, 나머지 X_3, ... , X_n 의 각각이 확률변수라는 뜻이다.
어떤 주어진 모집단으로부터 100개의 숫자를 추출하여 그 평균값을 구하면 이 100개 숫자들의 표본평균 sample mean 이 된다. 표본평균은 확률변수이다. 추출을 반복 (다시 말하지만, 100개 숫자들의 덩어리를 반복하여 추출하는 것을 상상할 것) 할 때마다 100개의 숫자들이 달라질 것이고, 따라서 그 100개 숫자들의 표본평균값도 달라질 것이기 때문이다. 반면, 이러한 추출을 반복할 때 모집단의 평균값은 상수이다.
분포
주어진 모집단으로부터 개체를 한 번 추출하여 관측하는 값 (예를 들어 한국인 모집단으로부터 관측하는 나이) 을 X라 하자. 이것은 앞에서 설명한 것처럼 확률변수이고 P(XㅌA)는 X 의 값이 집합 A에 속하는 사건이 발생할 확률 (또는 무한 반복시행 시궁극적인 상대빈도) 이다. X와 관련된 모든 사건에 대하여 확률을 구해 놓으면 이것이 바로 X의 확률분포 또는 분포이다.
모수(파라미터)
모집단의 분포를 특징적으로 나타내는 수를 모수 또는 파라미터라 한다. 표본에 관한 것은 모수가 아니다. 표본으로부터 구하는 값은 모수가 아니다. 하지만 표본 추출을 무한반복하면서 구하는 어떤 값들의 궁극적인 평균은 모수이다. 그 이유는 이 '궁극적인 평균'이 그 '어떤 값'의 모집단 (어떻게 이해할지는 앞의 '확률' 소절 참조)의 특성에 해당하기 때문이다. 예를 들어 X1, X2, X2, ... , Xn이 표본이라 할 때 n/1 (X1 + X2 + X3 + ... + Xn)은 모수가 아니지만 n/1(X1 + X2 + X3 + ... + Xn)의 평균은 모수이다.
모집단 평균과 분산
어떤 확률변수의 모집단 평균 (mean) 또는 기댓값 (expectation) 은 대충 말하면 다음을 뜻한다. 앞에서 확률을 정의할 떄와 마찬가지로 확률변수의 값을 무작위로 한 번 관측하는 실험을 무한 반복하여 시행한다. 그러면 무한히 많은 숫자들이 얻어질 것인데, 이 무한히 많은 숫자들의 궁극적인 평균이 바로 이 확률변수의 기댓값이다. 확률변수를 X 라 할 때 그 평균은 보통 E(x) 로 표기한다. 즉, E(x)란 X로 표기하는 확률변수의 추출을 무한히 반복할 때 얻는 궁극적인 평균으로 이해하면 되겠다. 평균은 또한 모집단 내의 모든 가능한 값들을 그 빈도(확률분포)에 따라 가중평균한 것이며, 모집단으로부터 숫자 하나를 추출하기 전에 그 값이 얼마일지 기대하는 것이기도 하다.
이 확률변수 X의 분산 (Variance) var(X) 는 [X-E(x)]^2 의 기댓값, 즉 E{[X-E(x)]^2}을 나타낸다.
표본평균과 표본분산
여러 확률변수들이 있을 때, 표본평균 (sample mean) 이란, 그 확률변수들의 합을 갯로 나눈 값 ("평균") 을 말한다. 수식으로 표현하여, X1, X2, X3, ..., Xn이 확률변수들이라면, 이들의 표본평균은 n/1 (X1 + X2 + X3 + ... + Xn) 이다. 표본평균에 대하여 두 가지 점을 기억하자. 하나는 표본 X1, X2, X3, ..., Xn 이 관측되면 표본 평균도 계산할 수있다는 점이다. 다른 하나는 이 표본평균이 확률변수라는 점이다. 왜냐하면 복수의 확률변수들의 값 (X1, X2, X3, ..., Xn)을 재관측할 때 그 값들이 변하고, 그 결과 이들의 평균값 (합을 개수로 나눈 값)도 변하기 때문이다.
다음으로, 표본분산 (sample variance) 이란 표본평균으로부터의 편차의제곱의 합을 '개수 뺴기 1'의 값으로 나눈 것으로서, 이것도 확률변수이다. 표본이 관측되면 표본분산을 계산할 수 있으며, 표본을 재관측하여 값들이 변하면 표본분산도 변한다.
표본평균이나 표본분산은 확률변수이며 관측을 반복할 때 그 값이 변한다. 이들에 대한 관측을 무한반복함으로써 표본평균의 분포, 평균, 분산, 표본분산의 분포, 평균, 분산을 구할 수 있거나 적어도 상상해 볼 수 있다.
통계량
통계량(statistic) 이란 표본의 계산가능한 함수 혹은 이 함수를 이용하여 계산한 값이다. 즉, 관측된 자료가 있을 때 이 자료로부터 계산할 수 있는 것이 통계량이다.
단순 선형회귀 모형과 그 해석
2.1 선형모형
계량경제학의 주된 관심사는 인과관계, 즉 다른 조건이 동일할 때 하나의 변수가 변화하면 다른 변수가 어떻게 영향을 받는가 하는 문제이다. 이런 인과관계를 포함하여 다양한 변수들 간의 관계를 수학적으로 나타낸 것을 모형이라한다.
- E(Y|X1,X2) = Beta0 + Beta1X1 + Beta2X2
- log(x) 가 0.01 만큼 증가했다 ~ x 가 1% 증가했다
Comments
Post a Comment