산포도란 얼마나 퍼져있는가? 판단하는 것이다. 물론 대상이 있어야 서로 비교가 가능할 것이기에 두 집단을 설정해두겠다. 두 집단에 누구는 밀집되어있는 반면 어떤 집단은 퍼져있다고 해보자. 이들은 평균은 같지만 퍼진정도가 극도로 차이가나면 통계결과에 괴리가 느껴질지도 모른다.
최대의 범위는 최댓값에서 최솟값을 빼면 되고 평균은 두 수의 평균을 내면 된다. 평균과 요소들간의 거리가 편차가 된다. 그 절대값의 크기가 크다면 편차가 큰 것이고 넓게 퍼져있을 것이라는 것을 생각할 수 있다. (엑셀함수 - ABS 절대값, AVERAGE 평균)
그리고 분산이라는 개념이 있는데 간단히 말하자면 편차제곱의 평균이라 생각하면 되고 이에 제곱근을 해주면 표준편차가 된다. 표준편차는 그냥 평균을 내지 왜 분산을 거치는지 아직도 의문이긴하다. 아마도 2차함수형태로 변형하여 차이를 극명하게 만들어주려고 했는지도 모르겠다. (엑셀함수 - VAR 분산, SQRT 제곱근)
이런 표준편차들로 서로의 집단을 비교하면 된다.
그런데 엑셀함수의 분산을 보면 VAR.P가 있고 VAR.S가 있다. 전자는 모집단 기준이고 후자는 표본집단 기준이다. 차이는 모분산에서는 n으로 나누지만 표본분산에서는 n-1로 나눈다. 참 의아한 부분이고 수학적으로 정확하지 않다. 아이러니한 것은 모분산이나 모평균이나 표준편차나 다 뜬구름같은 소리이다. 하지만 정확한 것은 표본조사를 전수조사처럼 정확하게 하려는 의도를 반영하고 있다는 점이다. (보정하려는 움직임)
우선 모분산과 표본분산을 비교해보면 모분산이 클 수밖에 없다. 100% 장담은 못하겠지만 집합체로 보면 모분산이 훨씬 커서 편차도 당연 클 것이라는 가설정도는 세울 수는 있을 것이다. (셀렉 시 정확하게 하여 거의 비슷하게 뽑았다고 가정해야한다. 뽑는 것도 제대로 하지 못한다면 결국 엇나간 데이터를 바탕이 되므로 표준편차를 계산하는 것이 의미가 없다.)
이 편차를 상대적으로 작은 표본분산을 보정해주는 성격으로 n-1로 나누어주는 것이다. 여기서 1을 빼주는 이유는? 모든 편차의 합은 0이어서 n-1개만 알아도 나머지 1개는 정해진 것이기 때문이다. 정해진 것을 계산식에 넣을 필요는 없고 보정의 성격도 있으므로 넣어주는 것이 된다. 솔직히 이 부분은 수학자들도 제대로 설명하는 경우를 못보았다. 그냥 정해진 공식이니 이렇게 외우는게 속 편할 듯 싶다.
'엑셀공부' 카테고리의 다른 글
입금문자! 어떻게 정제할 것인가? 데이터를 뽑아 조합하려는 경우! (0) | 2022.05.21 |
---|---|
엑셀 - 달력 만들기 (일자 자동으로 세팅) (0) | 2022.04.24 |
통계 - 자료와 표현 (0) | 2022.04.23 |
통계 - 정의, 전수조사와 표본조사 (0) | 2022.04.23 |
엑셀 - 복사 및 붙여넣기 옵션 (0) | 2022.04.22 |
댓글