본문 바로가기
STATISTICS

표본추출과 데이터수집(1)

by 자유데이터 2018. 12. 1.
반응형

목차

표본추출과 데이터수집
        1.전수조사와 표본조사
        2.확률표본
        3.확률표본추출
        4.변수
        5.유의숫자




1.전수조사와 표본조사

모집단에서 추출한 확률표본으로부터, 확률표본은 모집단을 대표한다.

표본은 반드시 무작위로 추출한다.
유의표본일 경우 결과 값이 편향된 값으로 나온다.


1)전수조사(complete survey)
대상 모집단에서 모든 개체를 관찰하여, 모집단의 특성을 파악하는 방법

관찰 비용과 시간이 많이 들고 정확성이 떨어진다. 무한 모집단은 현실적으로 불가능하다.
이 한계를 극복하기 위해, 표본조사를 한다.


2)표본조사(sample survey)
모집단에서 추출한 추출단위를 관찰하여, 모집단에 대해 추론하는 통계적 방법

이때 표본은 '확률표본'이어야 한다.
확률표본은 랜덤(완전확률화)으로 추출된 표본을 말한다.


3)표본오차(sampling error)
통계량은 모수와 반드시 일치한다고 볼 수 없다. 사실, 차이나는 경우가 많다.
이때의 차이를 오차라고 한다.

오차(error) = 기댓값(estimated value)-실측값(measured value)

표본오차(=residuals(잔차)) = 모수(parameter) - 표본의 통계량(statistics)
표본오차는 표본조사 시에, 필연적으로 발생하는 오차이다.
비표본오차(non-sampling error)는 표본출출 때문이 아니라 관찰방법, 데이터수집 등에서 발생하는 오차이다.

표본오차를 줄이기 위해서 표본의 크기를 증가시켜야 한다.
표본이 모집단을 잘 대표할 수 있어야 하기 때문에, 표본추출방법이 중요하다.

통계학은 확률과 오차 두 기준으로 이루어짐



2.확률표본(random sample)
확률표본추출에 의해 얻는 표본


1)표본크기
표본의 크기가 30이상이면 대표본, 미만이면 소표본이라 한다. (수학적인 근거에 정해진 값)

매우 중요한 두 가지 법칙
**중심극한의 정리(C.L.T - Central Limit Theorem)
1.표본의 평균은 표본의 크기가 커질수록, 정규분표와 유사해진다.
2.모집단이 정규분포하지 않더라도 표본의 크기가 충분히 크다면(대표본일때 n>=30), 정규분포라고 가정할 수 있다. 

**대수의 법칙
1.표본의 크기가 증가할수록, 통계적 추정의 정밀도가 향상된다는 것을 수학적으로 증명
2.표본의 크기가 커짐에 따라 표본에서 계산한 평균값과 모집단의 실제평균과의 차이가 매우 작아진다.

대표본은 모수적 통계방법(Parametic Test)을 사용하고, 소표본은 비모수적 통계방법(Non-parametic Test)을 사용한다.


2)모수(parameter)와 비모수(Non-parameter)

(1)모수적 통계기법
모수를 가정했을 때, 사용하는 통계기법

(2)비모수적 통계기법
모수를 가정할 수 없을 때, 사용하는 통계기법
확률분포, 표본의 크기를 따지지 않겠다.(표본이 너무 작을때)
중위수가 비모수의 대표값



3.확률표본추출
추출된 표본이 전체 모집단을 잘 대표할 수 있도록, 
표본의 추출단위들이 모집단으로부터 완전히 랜덤으로 추출되는 것을 의미한다.
모집단의 모든 기본단위가 표본으로 추출될 확률을 같도록 한다.
표본의 추출단위들이 서로 독립적이 되도록 실행(서로 영향을 끼치지 않는다.)


1)단순확률표본추출(simple random sampling)
확률표본추출의 이론적 바탕으로 실질적으로 잘 쓰지 않는다.
무작위로 표본을 추출한다.

노랜색이 랜덤으로 추출된 표본


2)집락표본추출(cluster sampling)
모집단을 집락(cluster)으로 나누고 랜덤으로 몇 개의 집락을 추출하여 그 집락에 있는 모든 표본을 추출하는 방법

실제 널리 사용되고 비용과 시간이 절약되고 관리가 쉽다.
집락들 간에 이질성이 적어야 한다.
단순확률표본추출보다 표본오차가 크다.



3)다단표본추출(multi-stage sampling)
집락표본출에 의해 추출된 표본집락 내에서 다시 랜덤으로 표본을 추출하는 방법



4)층화확률표본추출(stratified random sampling)
기본단위가 질적인 모집단을, 동질적인 몇 개의 층(stratum)으로 나누고, 층에서 랜덤으로 표본을 추출하는 방법

여론조사에 많이 쓰인다.
추출단위들이 동질성을 가질 때는 단순확률표본보다 정확한 추정을 할 수 있다.
각 층의 자세한 정보도 얻을 수 있다.


    -비례적 층화확률표본추출
        : 각 층에서 표본크기를 정할 때 층마다 표본의 수가 다르기 때문에 층의 비율을 고려하는 경우


반응형

'STATISTICS' 카테고리의 다른 글

대표값(2)  (0) 2018.12.02
대표값(1)  (0) 2018.12.02
표본추출과 데이터수집(2)  (0) 2018.12.01
통계의 기본 개념(2)  (0) 2018.11.20
통계의 기본 개념(1)  (3) 2018.11.14

댓글