본문 바로가기
STATISTICS

표본추출과 데이터수집(2)

by 자유데이터 2018. 12. 1.
반응형

목차

표본추출과 데이터수집
        1.전수조사와 표본조사
        2.확률표본
        3.확률표본추출
        4.변수
        5.유의숫자




4.변수

변수는 구분하는 방법에 따라 분류할 수 있다.
훗날, 데이터 분석할때 필요한 중요한 개념이다.


1)척도에 따른 구분

높은 수준의 척도에서 낮은 수준의 척도로 바꿀 수 있다.
척도의 수준이 높다 : 척도에 의해 얻는 수치(관찰값)가 많은 정보를 제공한다는 것을 말한다. 

(1)분류척도(norminal scale)
: 분류 변수(명목 변수)
: 단순히 분류가 가능한 변수이다.
: 우열이나 크고 작음을 비교할 수 없다.

(2)순서척도(ordinal scale)
: 순서 변수
: 특성에 우열이나 크고 작음이 있다.
: 두 관찰값을 빼거나 합하는 것은 아무런 의미가 없다.

(3)간격척도(interval scale)
: 간격 변수

(4)비율척도(ratio scale)
: 비율 변수
: 관찰값들 간에, 몇 배나 더 큰지를 나타낼 수 있다.
: 기하평균과 조화평균은 비율 변수에만 적용된다.


*간격 변수와 비율 변수 구분법

-관찰값 간의 차이가 그대로의 의미가 되는지를 본다.
ex)
20℃는 10℃의 두 배이지만, 두 배만큼 뜨겁다는 의미는 아니다. -> 간격 변수
20kg는 10kg의 두 배이고, 두 배만큼 무겁다는 의미다. -> 비율 변수

-절대 0의 의미를 지니는지 본다. (절대0 = 사라진다)
ex)
0℃는 0이라고 온도가 없는 것은 아니다. -> 간격 변수
0kg는 0이기 때문에 무게가 없다. 절대 0의 의미를 지닌다. -> 비율 변수


2)측정 방법에 따른 구분

수치화할 수 있는지를 따져본다.

(1)질적 변수(qualitative variable)
: 수치화할 수 없는 변수
: 범주형 변수와 순서변수가 이에 속한다.
: 평균, 표준편차 등의 의미가 없다. (단, 표본이 큰 경우 모수적 방법을 이용한 분석이 가능하다.)
    모수적 방법 : 추정, 가설검정 등

(2)양적변수(quantitative variable)
: 수치화할 수 있는 변수
: 간격 변수와 비율 변수가 이에 속한다.
: 순서 변수는 관찰값이 4~5가지 이상이면, 양적 변수로 취급한다.
: 모수적 방법을 이용한 분석이 가능하다.


3)연속성 여부에 따른 구분

(1)이산형 변수(discrete variable)
: 양적 변수 중에서 정수로만 나타낼 수 있는 변수(범위가 제한적이다.)
: 비연속성 변수라고도 한다.
: 통계분석 시에는 연속형 변수로 취급한다.
: 분류변수와 순서변수는 모두 이산형 변수이다.

(2)연속형 변수(continuous variable)
: 모든 실수를 가질 수 있는 변수(두 변수값 사이에는 무수히 많은 값이 올 수 있다.)
: 정수로만 이루어질 수도 있다.(단, 범위가 제한적이지 않다.)
: 간격변수와 비율변수는 모두 연속형 변수이다.


4)변수들 간의 관계(영향)에 따른 구분

연구자의 마음대로 정할 수 있다.
회귀분석에서 독립변수와 종속변수는 중요하다.
회귀분석의 용도 1.인과관계 파악 2. 예측

(1)독립변수(independent variable)
: 다른 변수에 영향을 받지 않는 변수
: 실험연구에서 연구자가 임의로 변화시킬 수 있는 변수

(2)종속변수(dependent variable)
: 다른 변수에 영향을 받는 변수(독립변수에 영향을 받는다.)
: 결과로 나타나는 변수

변수의 유형에 따라 적용되는 통계 방식이 다르다.



5.유의숫자

관찰한다 -> 변수의 특성에 수치를 부여한 것 -> 관찰값
관찰값은 숫자를 세거나(도수) 측정하는 것(측정값)으로 구분한다. 


1)유의숫자(significant figure)
: 하나의 측정값에 포함되는 숫자의 개수


ex)
사람의 키의 측정값이 170cm 일때, 유의숫자는 3
사람의 키의 측정값이 170.3cm 일때, 유의숫자는 4

*유의숫자의 차이와 중요성
만일, 사람의 키가 3cm 잘못 측정 되었을 때,
170cm의 경우 : 측정오차는 3/170 = 0.0176 (즉, 1.7%)
170.3cm의 경우 : 측정오차는 3/1703 = 0.0017 (즉, 0.1%)

따라서 유의숫자는 측정값에 대한 오차의 허용범위를 결정하는 중요한 요인이 된다.
유의숫자가 너무 적으면 정확도가 떨어지고, 너무 많으면 측정과 계산의 번거로움이 증가한다.


2)유의숫자의 적정성
보통 측정값의 최대값과 최소값 간의 단위단계수가 30~300 사이에 오면 충분한 것으로 본다.


ex)
최대값 : 170.5    최소값 : 50.5
최대값과 최소값 간의 단위단계수 : 1705-505=1200 >300
소수점 이하 반올림 : 171-51=120
따라서 유의숫자는 3으로 하는 것이 적절하다.



                                                                         

반응형

'STATISTICS' 카테고리의 다른 글

대표값(2)  (0) 2018.12.02
대표값(1)  (0) 2018.12.02
표본추출과 데이터수집(1)  (0) 2018.12.01
통계의 기본 개념(2)  (0) 2018.11.20
통계의 기본 개념(1)  (3) 2018.11.14

댓글