본문 바로가기
STATISTICS

시계열 분석

by 자유데이터 2019. 3. 8.
반응형

목차

시계열 분석
            1.시계열 분석 개요
            2.평활화 기법
            3.정상성과 차분
            4.시계열 모형
            5.자기상관성과 부분 자기상관성
            6.요소분해법




1.시계열 분석 개요

시계열 자료(time series data)는
연도별, 분기별, 월별, 일별, 시간별 등 시간의 흐름에 따라 순서대로 관측되는 자료를 말한다. 시간 단위 외에도 사회적 변화나 환경적 변동요인을 기준으로 시계열자료를 구분하는 경우도 있다. 일반적으로 시계열 자료는 추세변동, 순환변동, 계절변동, 불규칙변동 요인으로 구성된다.


1)시계열 분석을 위한 기본 용어

(1)시점(time point)
    -어느 한 특정 점(순간)

(2)적시성(timeliness)
    -언제 시행하느냐

(3)기간(period)
    -시점과 시점 사이의 거리
    
(4)시차(time lag)
    -'기간'의미+변화량
    -시점과 시점 사이의 거리+그 사이의 변화

(5)추세(trend)
    -정의 관계, 부의 관계 처럼 파동의 방향이 있을때를 말한다.

(6)동향(drift)
    -파동의 방향이 없을때를 말한다. 무작위성을 띈다.

(7)시간의 성격
    -독립변수의 역할(원인)이지만 실체는 없다.
    -시간은 독립적이다.(방정식에서 시간 자체가 변수로 들어가지 않는다.)
    -시간은 대리변수(proxy variable)이다.(모든 구체적인 사안을 통합적인 파동으로 해석한다.)


2)시계열을 구성하는 4가지 요소

(1)추세변동(trend variation)

시계열자료가 갖는 장기적인 변화추세를 말한다. 그러므로 짧은 기간의 시계열 자료에서는 추세변동을 찾기가 어렵다. 따라서 급격히 변하는 추세변동이 아니라 직선이나 부드러운 곡선의 연장선으로 표시한다.


(2)순환변동(cyclical variation)

대체로 2 ~ 3년 정도의 일정한 기간 주기로 나타나는 추세를 말한다. 즉, 시간의 흐름에 따라 사하로 반복되는 변동으로 추세선을 따라 변화하는 것을 의미한다. 순환변동은 주기적으로 파도처럼 반복 곡선으로 나타나므로 삼각함수 관계로 표시되기도 하지만 실제로 순환변동을 나타내는 적합한 함수를 구하는 것은 쉽지 않다.



(3)계절변동(seasonal variation)

계절을 주기로 발생하는 변동요인을 계절변동이라 하고, 계절에 따라 순환하며 변하는 특성을 지닌다. 순환변동보다 주기가 짧은 것이 특징이다. 대부부닁 경제관련 시계열들은 추세와 계절요인을 동시에 포함한다.

빨간선이 추세, 파란선이 계절변동요인


(4)불규칙변동(irregular variation)

시계열자룡에서 어떤 규칙성이 없어 예측 불가능하게 우연적으로 발생하는 변동을 말한다. 즉, 시계열 자료에서 위 세 가지 변동 요인을 조정한 후에 나타나는 변동이 불규칙 변동이다. 시계열 자료로 예측을 할 때, 불규칙 변동이 많이 존재하면 신뢰성이 있는 예측을 하기 어렵다.



2.평활화 기법(Smoothing Methods)

데이터 셋를 모델링 하기 전에 기술통계와 시각화로 데이터 셋을 탐색하는 과정이 있듯이, 시계열(time-series)에서도 복잡한 모델 구성에 앞서 수치나 시각화로 시계열을 기술하는 일이 분석작업의 출발점이다.

평활화(smoothing)는 분석작업 중 하나로,
일반적인 시계열의 복잡한 추세(trend)를 명확하게 파악하기 위한 방법이다. 시계열은 전형적으로, 명백한 불규칙(or 오차)성분을 포함한다. 시계열 자료의 특정 패턴을 파악하기 위해, 이같은 급격한 파동을 줄이는 평활화(smoothing) 곡선 플롯(curve-plot)으로 변환시키는 방법이 평활법이다. 대표적인 평활법은 이동평균법과 지수평활법이 있다.


1)이동평균법(moving average method)

시계열을 평활화하는 가장 단순한 방법은 이동평균(moving average)을 사용하는 방법이다.
시계열 자료의 특정시점(a time point) 관측치와 이 관측치의 이전과 이후 관측치의 평균으로 대체하는 방법을 '중심이동평균'(centered moving average)라고 한다. 쉽게 말해, 한 시점 앞 뒤 관측치를 평균내는 방법이다. 따라서 이동평균법을 하면 전체 관측치의 개수가 줄어 든다.


최근 n개의 관측값 Zt , Zt-1 , ... , Zt-n+1을 이용하여 계산한 이동평균이다.
예시) 1999 년 우리나라 주가지수
주가지수
3 개월 이동평균
4 개월 이동평균
1
2
3
4
5
6
7
8
9
10
11
12
597.6
533.0
586.2
721.1
745.4
841.4
971.4
932.9
926.9
828.6
950.1
984.5
-
572.3
613.4
684.2
769.3
852.7
915.2
943.7
896.1
9.1.9
921.1
-
-
609.5
946.4
723.5
819.6
872.8
918.2
915.0
906.6
922.5
-
 
3 개월 이동 평균을 구할 경우, (596.6 + 533.0 + 586.2)/3 = 572.3 으로 된다.


2)지수평활법(exponential smoothing method)

이동평균법은 장기적인 추세 경향을 파악하기에는 장점이나, 본래 시계열 자료의 처음과 끝 부분을 계산할 수 없는 단점이 있다. 이 단점을 해소한 방법이 지수평활법이다.

지수평활법은,
시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법이다. 이 가중치의 역할을 하는 것은 지수평활계수( α )이며, 불규칙 변동이 큰 시계열의 경우 작은 값이고 불규칙 변동이 작은 시계열에는 큰 값의 지수평활계수를 적용한다. 일반적으로 α 는 0.05 ~ 0.3 사이이다.

Ft=αZt-1+(1-α)Ft-1

여기서 Ft는 t기간의 예측값, Ft-1는 t-1기간의 예측값, Zt-1는 t-1기간의 실제값, α는 지수평활계수이다.



3.정상성(stationarity)과 차분(differencing)


1)정상성

정상성은,
정태성이라고도 하며, 일정하여 늘 한결같은 성질을 뜻한다. 시계열에서 정상성이 있다는 것은 추세나 동향이 없는 상태로, 시계열의 평균이 시간 축에 평행하다는 의미다. 시계형 자료가 시계열 모형으로 적합시키기 위한 전제 조건에 해당한다. 즉, 추세와 동향이 있는 상태로는 모형을 만들 수  없다.(다루기가 어렵다)



비정상성 시계열은 정상시계열로 변환해야 하며, 차분(differencing)을 이용한다.

2)차분

차분은 현시점 자료에서 전 시점 자료를 빼는 것을 말한다.
일반차분(regular difference)는 바로 전 시점의 자료를 빼는 것이고, 계절차분(seasonal difference)는 여러 시점 전의 자료를 빼는 것이다.



4.시계열 모형

시계열 모형을 만들기 전에,
기본 시계열 자료값들을 차분을 이용하여 정태성을 갖게 한다.(보통 차분을 한 번 한다. 최대 두번까지) 그리고 교란항(noise)에 따라, AR, MA, ARIMA, MARIMA 중 선택하게 된다.(자세한 교란항 내용은 패스)


1)시계열 모형 종류

(1)AR(p) - 자기 회귀 모형

(2)MA(q) - 이동평균 모형

(3)ARMA(p,q)

--여기까지 기본--

(4)ARIMA(p,d,q) - 자기회귀누적이동평균 모형
: 차수의 개수(d)는 거의 2를 넘지 않는다.

(5)SARIMA(Seasonal ARIMA) - 계절 자기회귀이동평균 모형
: ARIMA는 계절성분을 설명하지 못해서 탄생
: ARIMA(p,d,q)(P,D,Q)[frequency]   (대분자는 계절 성분에 대한 값, 의미는 소문자와 동일)

--4,5번을 하면 1,2,3은 자동으로 알게 됨

--기타 등등--
(6)GARCH
.....


2)ARIMA 모형

ARIMA 모형은,
자기회귀와 이동평균을 고려한 시계열 모형으로 Univariate ARIMA model (단변량 아리마 시계열 모형, ARIMA)과 Multivariate ARIMA model (다변량 아리마 시계열 모형, MARIMA)이 있다.

즉, ARIMA는 이전 관측값의 오차항이 이후 과측값에 영향을 주는 AR모형과 관측값이 이전의 연속적인 오차항의 영향을 받는 MA모형을 고려하여 만들어진 모형이다. 또한, I(integrated)는 누적을 의미하는데 차분이라 생각하면 된다.

ARIMA(p,d,q)로 표현이 되는데, p,d,q를 차수라고 한다. p는 자동 회귀 계수, d는 차분 수, q는 이동평균 계수를 뜻한다.
자동 회귀 계수(Auto regression)(AR)::θ -> 추세선을 위해 회귀선을 만드는 것이 목적
이동 평균 계수(Moving average)(MA):: Φ -> 평활화가 목적


3)R에서 시계열

-시계열 자료의 그래프 함수 요약
(1)ts.plot{stats}
(2)plot{graphics}
(3)cpgram{stats}
(4)lag.plot{stats}
(5)monthplot{stats}
(6)spec.taper{stats}
(7)tsdisplay{forecast}

-frequency
frequency=1, 연간
frequency=12, 월간
frequency=4, 분기

-둘다 논쟁중-
frequency=7,일별
frequency=52,일별



5.자기상관과 부분 자기상관

시계열 모형을 만들때, 적절한 차수를 추정하는 방법으로 자기상관함수와 부분자기상관함수가 있다. 

1)자기상관함수(ACF; AutoCorrelation Function)

자기상관함수는,
시계열 관측치들이 서로 관계하는 방식을 측정해주는 함수이다. 즉,  k 시간 단위로 구분된 시계열의 관측치(yt 및 yt–k) 간 상관의 측도를 말한다. lag(시차) 값이 0인 지점을 빼고 판단한다.(첫번째는 비교할 대상이 없기 때문에)

2)부분자기상관함수(PACF; Partial AutoCorrelation Function)

부분자기상관함수는,
편 자기상관함수라고도 하며, 다른 모든 짧은 시차 항에 따라 조정한 후 k 시간 단위로 구분된 시계열(yt–1, yt–2, ..., yt–k–1)의 관측치(yt 및 yt–k) 간 상관의 측도입니다.


개념적으로는 어렵다. 하지만 차수를 자동으로 만들어주는 함수들이 존재한다.
(결론은 자기상관은 별로 쓸일이 없다...)



6.요소 분해법

요소분해법 (decomposition of time-series)은
계절분해 (Seasonal decomposition)라고도 하며 계절성이 있는 시계열(Monthly or Quarterly 같은)은 추세(trend) 성분, 계절(seasonal) 성분, 불규칙(오차, irregular/error/random) 성분으로 분해가능하다. 즉, 앞에서 본 시계열 요소를 분해하여 살펴볼 수 있다.

-추세(trend) 성분
: 시간에 따른, 변화를 포착.

-계절(seasonal) 성분
: 연간 순환효과(=주기성)를 포착

-불규칙(=오차, irregular/error/random) 성분
: 추세(trend)나 계절(seasonality) 효과로 기술할 수 없는 효과를 포착


(요소)분해는, 아래의 두가지 방법 중 하나를 적용한다.

1) 가법 모델(Additive model)

시계열 값(관측치)을, 성분들의 합으로, 아래 식으로 표현된다.

(특정시점의) 관측치(Y) = (특정시점의) 추세 + (특정시점의) 계절 + (특정시점의) 불규칙

위 식의 성분들이 가법(+, 덧셈)으로 구성되고 구성 성분들의 효과가 가법적으로 발생한다. 여기서, 가법적이라 함은, 구성 성분들의 효과가 만들어내는 변이(=변동의 크기)가 '양적으로' 증가함을 의미한다.

예시)
10년간 모터사이클의 월간 판매액에 대한 시계열 자료에서, 계절효과(seasonal effect)로, 모터사이클의 월별 판매대수가 11월 ~ 12월 사이에, 500대 증가, 다음해 1월 200대 감소(양적으로)

 
2) 승법 모델(Multiplicative model)

시계열 값(관측치)을, 성분들의 곱(x, multiply)으로, 아래 식으로 표현된다.

(특정시점의) 관측치(Y) = (특정시점의) 추세 x (특정시점의) 계절 x (특정시점의) 불규칙

위 식의 성분들이 승법(x, 곱셈)으로 구성되고 구성 성분들의 효과가 승법적으로 발생. 여기서, 승법적이라 함은, 구성 성분들의 효과가 만들어내는 변이(=변동의 크기)가 '비례적으로' 증가함을 의미한다.

예시)
10년간 모터사이클의 월간 판매액에 대한 시계열 자료에서, 계절효과(seasonal effect)로, 모터사이클의 월별 판매대수가 11월 ~ 12월 사이에, 20% 증가, 다음해 1월 10% 감소(비례적으로)

따라서, 한 시계열은, 위의 3가지 성분들의 여러조합으로 구성가능하다.
예를들면,
- ts1 : No Trend + No Seasonal + Irregular
- ts2 : Trend + Irregular
- ts3 : Trend + Seasonal + Irregular



반응형

'STATISTICS' 카테고리의 다른 글

회귀분석  (3) 2019.03.07
가설 검정(2)  (0) 2019.02.27
가설 검정(1)  (0) 2019.02.27
대표값(2)  (0) 2018.12.02
대표값(1)  (0) 2018.12.02

댓글