통계란 것은 실생활에 유용하게 쓰이고 미래를 예측하기위한 좋은 도구이기 때문에 반드시 알아야한다. 하지만 우리는 중고등학교 때의 악몽으로 인하여 두려움과 기피의 대상이었지만, 선진국에서는 필수학문이고 반드시 알아야하는 학문 중에 하나인 것이다. 나도 그 시대를 겪었었고 이해되지 않음과 두려움으로 인하여 기피했었지만 살다보니 반드시 알아야 함을 느끼곤한다.
통계를 내려면 여러가지를 고려해야하는데 무엇을 통계를 낼 것인가? 가장 중요한 목표에 해당하는 것이고 실질적으로 어떻게 통계를 낼 것인가에 고민을 해보아야한다. 앞서 조사해야 할 범위에 대한 논의를 해야한다. 이에 대해서 전수조사라는 개념과 표본조사라는 개념이 등장한다. 그에 딸린 세부적인 개념들도 알아야 이해하기 편할 것이다. 통계에서 자주 등장하는 "모"라는 개념이 있다. 어미모라는 뜻으로 대상이 되는 것이라 생각하면 된다. 예를들면 통계를 좋아하는 학생은 얼마나될까?라는 질문에 모집단이라고 하면 학생 전체 집단이라 생각하면 된다. 그 집단을 전체를 조사할 것인가? 일부를 셀렉하여 조사할 건인가? 문제가 되는 것이다.
만일 전체를 대상으로 한다면 장점을 보면 정말 정확할 것이다. 그것을 전수조사라고 한다. 하지만 단점을 보면 전체를 조사하다보니 시간이 오래걸리고 복잡하다는 요소가 발생한다. 만일 정말 간단한 것을 조사한다고 하는데 굳이 전체를 조사할 필요가 있을까? 한국인은 단맛을 좋아하는가? 짠맛을 좋아하는가?에 대해 조사한다고 하면 모든 한국인 몇천만명에게 물어볼 것인가? 어느누구도 그런 정신나간 짓을 하지 않을 것이다.
그래서 그 중에 셀렉하여 조사하는 표본조사라는 것이 있다. 랜덤으로 선택하여 진행한다면 장점을 보면 상당히 편리하다는 것이고 간단하게 결론을 도출해 낼 수 있다는 점이다. 하지만 단점으로보면 정확하지 않을 수 있다는 것이다. 만일 셀렉과정에서 편향된 항목이 생기면 실제와 엄청난 괴리를 야기할지도 모른다.
집중적으로 볼 것이 표본조사라는 것이다. 그것을 강조하고 얼마나 중요한지 모른다. 여기서 가장 중요한 것은 셀렉된 요소가 모집단의 특성을 드러내는지, 적절한지 판단이 들어야한다. 전 국민을 대상으로 조사해야하는 것에 만일 벤츠를 타는 사람을 대상으로 표본으로 선택한다면 정말 많은 문제가 발생한다. 여기서 잘못되면 그 통계는 몇년이 걸린 걸작이라 하더라도 허사가 됨은 분명한 사실이 될 것이다.
적절하고 합당한 표본을 추출해서 조사했다 하더라도 결론과 비교해보았을 때 오차가 발생할 수 있다. 그것을 표본오차라고 한다. 오차는 당연히 발생할 수밖에 없다는 사실을 알아야한다. 왜냐하면 전수조사가 아니기 때문이다. 중요한 개념은 이러한 오차를 최대한 줄이는 것을 목표로 해야한다. 기획자의 역할이 얼마나 중요한 지 보여주는 항목이기도 하다.
표본 추출방법에는 여러가지 방법들이 있는데, 위에서 언급한 단순히 랜덤으로 뽑아서 하는 방법이 있다. 방법은 단순하여 사용하기 용이하지만 어느 한쪽으로 편중될 가능성이 있다. 이런 편중을 어느정도 중화시키기 위해서 층화랜덤 추출법이라는 것이 있는데 모집단을 우선 중복을 배제하기위해 층을 나눈다음 그 층별로 랜덤으로 뽑는 형식이다. 그리고 클러스터 추출법이 있는데 다단계 추출 방법이라 생각하면 된다. 그런데 집락이 너무 단순하거나 서로 이질적이라면 적용하기 어렵다. 어느정도 수가 있어야하며 동질적인 부분이 있고, 집락안에 요소들은 이질적인 부분이어야 활용 가능할 듯 싶다. 그 외 여러 추출방법이 있는데 상황에 맞게 적절히 섞이게하는 것이 목적이므로 판단을 정확히 해야할 것이다.
'엑셀공부' 카테고리의 다른 글
통계 - 산포도(집단비교) (0) | 2022.04.23 |
---|---|
통계 - 자료와 표현 (0) | 2022.04.23 |
엑셀 - 복사 및 붙여넣기 옵션 (0) | 2022.04.22 |
엑셀로 만드는 급여계산기 2부 (1) | 2022.04.18 |
엑셀로 만드는 급여계산기 1부 (0) | 2022.04.18 |
댓글