본문 바로가기
STATISTICS

회귀분석

by 자유데이터 2019. 3. 7.
반응형

목차

회귀분석
        1.회귀분석이란
        2.회귀 모형
        3.회귀분석 절차
        4.오차와 잔차 비교



1.회귀분석이란(Regression Analysis)

1)회귀분석

두 변수의 관계를 회귀식으로 간단하게 설명하고, 한 변수로 다른 변수의 값을 추정하거나 예측한다. 


2)회귀분석과 상관분석

회귀분석과 상관분석은 아주 밀접한 관계가 있다.
상관분석: 변수들이 함께 변화하는 정도를 알려준다.
회귀분석: 변수들 사이의 원인과 결과를 설명해준다.


3)회귀 방정식
원인(x)에 의해 결정된 결과(y)에 대한 방정식

x: 원인이 되는 변수(=독립 변수=설명 변수=예측 변수)
y: 결과가 되는 변수(=종속 변수=반응 변수=결과 변수)

두 변수 간에 상관관계가 높으면,
독립변수는 종속변수를 더 잘 설명할 수 있고, 독립변수 값으로 종속변수 값을 정확히 예측할 수 있다.

b: 회기계수(slope=기울기.가중치)
a: 절편(intercept)

^(hat) : 추정을 의미한다.
절편은 물리적으로 해석하지 않는다.

회귀모형을 만든다. 
-> fitting 시킨다.(적합시킨다.) 
-> 회귀분석을 이용하여 방정식을 만들때 모계수와 독립변수들을 잘 적합시켜 만든다는 의미.

예측된 값(=추정된 종속변수)를 fitted value라 한다.

인과관계가 없는 변수 사이의 회귀분석은 의미가 없다.
회귀분석은 다른 변수 값을 예측하는데 중점이 있다.


 4)회귀분석의 종류

-단순 선형 회귀 분석(Simple Linear Regression Analysis) : 독립변수가 하나
-다중 선형 회귀 분석(Multiple Regression Analysis) : 독립변수가 여러 개
-다항 회귀 분석(Ploynomial Regression Analysis) : 독립변수와 종속변수가 곡선의 관계
-다차원 회귀 분석(Multi=level Regression Analysis)
-로지스틱 회귀 분석(Logistic Regression Analysis) : 종속변수가 이산형
-포아송 회귀 분석(Possion Regression Analysis) : 종속변수가 카운터 형태
-다변향 회귀 분석(Multi-variate Regression Analysis)
-시계열 회귀 분석(time-series Regression Analysis)
-비선형
-비모수
-로비스트(Robust Regression Analysis)
-COX 비례위험
...



2.회귀 모형(Regrssion Model)


1)회귀 방정식과 회귀 모형

회귀 방정식에서 예측된 값과 실제 관찰 값(xi,yi)은 측정오차나 환경영향 등으로 인해 오차가 존재한다.
그 오차를 잔차(residual effect)라고 하며 관찰값-예측값 으로 구한다.

포함된 오차를 반영한 식은
이고
이 식을 변수x에 대한 회귀모형이라 한다.
즉, 회귀 방정식에 오차가 포함되면 회귀 모형이 된다.


2)추정회귀방정식
표본에서 찾아낸 회귀직선을 말하며 예측한다고 표현한다.
(추정 -> 표본)
a와 b가 될 수 있는 값은 무수히 많다.
그 중에서, 가장 알맞은 회귀직선(아래 그림 빨간선)이 되는 a, b 는 최소제곱법으로 구한다.



3)최소제곱법(LSM; Least Squares Method = LMS; Least Mean Squares = OLS; Ordinary Least Squares)

최소자승법이라고도 한다.
잔차 제곱의 합을 최소로 만드는 방법으로, 추정된 회귀방정식과 실제 값들의 오차를 줄이는 방법이다.



3.회귀분석 절차


1)전제 조건
데이터가 일정한 가정을 만족해야 회귀분석을 할 수 있다.

-선형성 : 주어진 x값에 대한 y의 예측값은 모두 일직선 위에 있다. (선형회귀분석에 해당한다.)
-정규성 : 오차의 분포가 정규분포를 따른다.
-등분산성 : 모든 x에서 y의 분산은 모두 같다.
-독립성 : 각 객체는 서로 독립적이다.
(-비상관성 : 오차들끼리 상관이 없다.)

이 4가지 가정을 충족시키지 못하면,

새로운 회귀방정식을 찾던가,
변수의 변환을 통해 가정을 충족시켜야 한다.


2)특이값
회귀 모형을 만드는데 영향을 주는 값으로, 상황에 따라 처리해야 한다.


이상치(outlier)
: 회귀모형을 잘 예측할 수 없는 관측치
: 과소추정, 과대추정이 나올 수 있다.

영향치(influential observation)
: 모수(모회귀계수)의 결정에 지대한 영향을 미친다. 

큰 지래점(high leverage point)
: 예측변수들의 공간내에서 비일상적인 결합
: 큰 지래점이면서 이상치이면 그 값은 영향치로 변한다.
: 이상치가 아니면 정상값


3)회귀모형 선택
r^2(설명력 = 결정계수)와 RMSE(평균제곱근 오차)의 수치로 선정한다.
설명력이란 모형으로 부터 나온 값(기대값)이 얼마나 실제값과 일치하는지를 알려준다.

-Stepwise regression 방식
과정을 단계적으로 보여줌
결정계수가 가장 큰 것을 찾아준다.

(1)forward step : 전진선택방식으로 변수를 추가해간다.
(2)backward step : 후진제거방식으로 모든 변수를 넣은 후, 하나씩 빼간다.
(3)stepwise step : 위 두 개 병합


4)회귀분석 진단

-4가지 가정(결과에 대한 진단)


-다중공선성(원인)

모형의 일부 예측 변수가 다른 예측 변수와 상관이 있을 때, 발생하는 문제이다.
다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만든다.
(변수의 분산이 고정되지 않고 팽창하면 다른 변수의 영향을 받는다는 원리를 이용)

다중공선성은 분산팽창인수(VIF)로 판단할 수 있는데, 보통 10이 넘으면 문제라고 판단한다.


-자기상관성(결과)



4.오차와 잔차 비교 


Ⅰ. 오차

1. 오차(error)의 정의
    - 모집단에서 실제값이 회귀선과 비교해 볼 때 나타나는 차이
    - 예측값과 관측값의 차이
2. 오차의 종류
    1) 정오차(constant error)
        - 일정한 조건하에서 같은 방향 또는 같은 크기로 일어나는 오차
            (1) 물리적 원인에 따른 오차
            (2) 기계적 원인에 따른 오차
            (3) 개인적 특성에 따른 오차

    2) 우연오차(accident error)
        - 관측 조건에 따라서 그때그때 나타나는 오차

    3) 착오(mistake)
        - 관측자의 부주의로 인한 오차

3. 회귀분석에서 오차의 가정

    y=bx + a + 오차

    - 회귀식 모형에서는 오차를 포함하고 있음
    1) 독립성 가정
        - 선형회귀분석에서, 종속변수가 시간 또는 위치에 영향을 받는 시계열 데이터인 경우,
          이웃하는 관찰값들 사이에 상관관계가 있을 수 있음
        - 따라서 이러한 데이터 set에서는, 오차항들이 서로 독립적이라는 조건을 검토해보아야 함
        - 이러한 상관을 자기상관(autocorrelation)이라고 하며,
          자기상관은 한 시점의 오차항과 과거시점들의 오차항들과의 상관임
        - 자기상관(독립성)을 알아보기 위해 주로 Durbin-Waston 검정 사용

    2) 등분산성 가정
        - 오차항들의 분산이 일정하다고 가정하는데,
          이를 오차항의 등분산성이라 함
        - 이러한 등분산성을 알아보기 위해, 잔차플롯(산점도)을 활용함
          (예측치들이 무작위적으로 고루 분포되어 있으면 등분산성 가정)

    3) 정규성 가정
        - 오차항들의 정규성을 가정함
        - 정규성을 측정하기 위해서 줄기-잎 그림을 그려보는 방법이 있고,
          정규확률 산점도를 그려볼 수 도 있으며,
          Q-Q 도표,
          콜모고르프 스미느로프 검정,
          샤피로-윌크스 검정 등을 활용할 수 있음

    
Ⅱ. 잔차(resdual)

1. 잔차의 정의
    - 표본에서 나온 관측값이, 회귀선과 비교해볼 때 나타나는 차이
    - 회귀모형에서 오차항은 측정할 수 없으므로,
      잔차를 오차항의 관찰값으로 해석하여,
      오차항에 대한 가정들의 성립 여부를 조사함

2. 잔차의 종류
    (1) 표준화 잔차(standardized residual)
        - 잔차의 표준화 값을 표준화 잔차라고 하며,
          표준화 잔차는 추정 회귀식으로부터 관측치가 얼마나 떨어져 있는가를 나타냄
        - 일반적으로 ±2(어떤 학자는 ±2.5 또는 3 이상)보다 크면,
          이상점으로 간주함

    (2) 스튜턴트 잔차(studentized residual)
        - 잔차를 t-분포를 따르는 통계량으로 만든 잔차
        - 일반적으로 스튜턴트 잔차 값이 ±2(어떤 학자는 ±2.5 또는 3 이상)이상이면,
          이상점(영향점)으로 간주함

    (3) 스튜턴트 제외 잔차
        - 자신의 관측치를 제외하고 회귀모형을 추정한 후, 얻어진 잔차
        - 일반적으로 스튜턴트 제외 잔차 값이 ±2(어떤 학자는 ±2.5 또는 3 이상)이상이면,
          이상점(영향점)으로 간주함

        ※ 일반적으로 스튜턴트 제외 잔차가 이상치를 더욱 많이 발견하게 되므로,
           스튜턴트 잔차를 주로 사용함

3. 잔차추정 방법
    - 잔차와 종속변수 추정치의 산점도를 그려봄




반응형

'STATISTICS' 카테고리의 다른 글

시계열 분석  (0) 2019.03.08
가설 검정(2)  (0) 2019.02.27
가설 검정(1)  (0) 2019.02.27
대표값(2)  (0) 2018.12.02
대표값(1)  (0) 2018.12.02

댓글