본문 바로가기
STATISTICS

대표값(1)

by 자유데이터 2018. 12. 2.
반응형

목차

대표값
        1.대표값이란
        2.산술평균
        3.중앙값
        4.최빈값
        5.기하평균
        6.조화평균
        7.대표값들 관계




1.대표값이란
=해당변수를 대변하는 값
=중심경향값(Central Tendency Value)
=위치의 통계량


1)의미와 종류

대표값은 중심값이라고도 하며, 데이터(변수)의 집중경향을 나타내는 통계적 수치이다.
데이터가 정규분포할때, 모든 대표값들은 일치한다.
정규분포 : 정상적인 분포
기술통계에서 중요한 역할이며, 산술평균은 추측통계에서 매우 중요하다.

종류: 산술평균, 중앙값, 최빈값, 기하평균, 조화평균


2)목적
확률표본으로부터 수집한 데이터를 도수분포표나 그래프로 정리한 후,
대표값을 기준으로, 관찰값들이 얼마나 흩어져 있는지를 표현하는 산포도를 구할 수 있다.



2.산술평균(mean)
개체의 관찰값을 모두 합하여, 전체 개체수로 나누어서 얻는 통계량

가장 널리 사용되고 신뢰할 수 있는 대표값(확률분포를 근거하고 있기 때문)
그냥 평균이라고 말할 때, 보통 산술평균을 말한다.
양적변수에 대해서만 사용한다.
특이값의 영향을 많이 받는다.
(특이값: 대부분의 데이터와 멀리 떨어진 관찰값)


*가중평균
같은 변수에서 크기가 다른 표본이 여러 개 있을 때, 전체 평균을 구하기 위해 사용되는 값
모집단으로부터 각 표본에 대한 평균을 여러개 구하고,
각 표본의 평균에 가충치를 곱하여 전체 평균을 구한다.
(각 표본의 크기 = 가중치)



3.중앙값(median)
변수의 관찰값들을 크기순으로 정렬했을때, 가운데 오는 값

특이값의 영향을 적게 받는다. ( 특이값을 제거하지 않을 경우 유용하다.)
데이터의 분포가 치우쳤을 때 유용하다.
관찰값의 수가 짝수일 경우, 가운데 2개 관찰값의 평균으로 한다.

초산일령, 사망률 등의 대표값으로 적당하다.(표본전체를 동시에 관찰할 수 없는 경우)



4.최빈값(mode)
변수의 관찰값들 중에서 출현빈도가 가장 많은 관찰값

보조적인 수단으로 사용된다.
같은 데이터에 몇 개라도 가질 수 있다.
-유니모드 : 최빈값 하나
-바이모드 : 최빈값 두 개
-멀티모드 : 최빈값 세 개 이상
-최빈값이 없다. : 관찰값들의 도수가 모두 같을 경우

수요, 매매, 임금, 생계비 등의 대표값으로 적당하다.



5.기하평균(geometric mean)
비율적으로 변화하는 변수의 평균


시계열성인 변수에 적합하다.
인구변동율, 물가변동율, 대장균 콜로니의 수 등의 대표값으로 적당하다.



6.조화평균(harmonic mean)
동일한 조사대상에 대하여, 서로 다른 반응을 나타내는 변수의 대표값


역수를 가지는 변수 등 특수한 경우에만 사용한다.
단위시간당 평균 생산량, 수컷 한 마리당 교잡된 암컷의 수 등의 대표값으로 적당하다.



반응형

'STATISTICS' 카테고리의 다른 글

가설 검정(1)  (0) 2019.02.27
대표값(2)  (0) 2018.12.02
표본추출과 데이터수집(2)  (0) 2018.12.01
표본추출과 데이터수집(1)  (0) 2018.12.01
통계의 기본 개념(2)  (0) 2018.11.20

댓글