Etc/TAVE

Time Series analysis

프랑스어전공 2023. 4. 8. 16:36

시계열 자료: 시간의 흐름에 따라 관측된 자료

관측치의 통계량 변화를 시간의 흐름에 따라 순차적(Sequentially)으로 데이터화하고 현황을 모니터링하거나 미래의 수치를 예측하는분석 방법. 

 

ex) 주가 전망, 수요 예측, 연도별 GDP, 일일 미세먼지량

 

시계열 분석의 목적

- 탐색 목적 : 외부 인자와 관련된 계절적인 패턴, 추세 등을 설명하고 인과관계를 규명

- 예측 목적 : 과거 데이터 때턴을 통해 미래의 값을 예측

 

 

시계열 모형

a_t가 백색잡음이라고 할 때, X_t를 다음과 같이 정의하면 X_t는 시계열로 정의된다.

 

ARIMA 모형

 

t가 1에 가까워 질수록 과거 자료를 나타낸다. 이 때, 자료가 충분히 많을 때,  a1의 계수 (1/2)^(t-1)은 거의 0을 곱하는 거라고 보면 된다. 따라서 오차(a_t)가 커도 먼 미래의 쇼크는 영향력이 굉장히 낮다는 것을 의미하는데 이것을 정상 시계열 이라고 한다. 반대로 계수가 1에 수렵하면 그 파급력은 오랜 시간이 흘러도 계속 영향력을 유지한다. 이것을 비정상시계열이라고 한다. (ex. 주식)

 

- 수준{Level): 시계열의 평균값

- 추세(Trend): 장기 변동 요인으로써 강한 외부요인이 없는 한 지속되는 경항성

- 순환성(Cycle): 불규칙적이며 반복적인 중기 변동요인

- 계절성(Seasonality): 1년(12개월)의 기간 동안의 주기적인 패턴

- 잡음(Noise): 일정한 규칙성이 없는 무작위적인 변동

 

시계열 분해

시계열 그림 고찰

시계열 자료 분석에 있어서 가장 중요한 부분은 시각화로 직접 확인해 보는 것이다. 시각화 후 살펴보아야 할 사항은 다음과 같다. 

 

 

1. 자료가 정상성을 만족하는가?    

2. 시간이 흘러가도 자료의 변동이 일정한가? 아니면 커지거나 작아지는가?    ; 분산이 일정한가?

3. 자료에 대한 가상의 평균선을 중심으로 평균선을 통과하는 회수가 적은가?   ; 자료의 이상점과 개입을 살펴야한다
4. 자료가 주기적으로 일정한 모양을 갖고 있는가?    

 

 

 

 

회귀 기반 시계열 분석

t 시점의 Y_t 값(예측하고자 하는 시점)이 종속변수가 된다. 그리고 t 시점에 해당하는 요소(해당 요일, 월 등)이 독립변수가 된다. 따라서 어떤 자료에 대해 추세성을 반영하려면 시계열이 시작하는 기준 시점일로부터 경과일을 독립변수화 하면 된다. 

오른쪽 그림처럼 비선형적인 경우에는 다항회귀를 사용하여 모델 적합성을 향상시킨다. 또는 종속변수나 독립변수에 로그를 취해주어 비선형적 관계를 적합시킬 수 있다. 

 

자기회귀(Autoregression)

시계열 데이터에서 자기 자신의 과거 값을 사용하여 현재 값을 예측하는 모델링 기법이다. 예를 들어, 어떤 주식의 가격이 1일부터 10일까지 순서대로 기록되어 있다면, 자기회귀 모델은 1일부터 9일까지의 가격 정보를 사용하여 10일의 가격을 예측할 수 있다. 이를 이용해서 추가적인 독립변수를 투입시켜 추세 요소를 보다 정교하게 반영할 수 있다. 

 

 

자기상관함수 (Autocorrelation function, ACF)

시계열 데이터에서 자기회귀 모델을 만들기 위해 사용되는 개념이다. 자기상관함수는 시차(lag)가 증가함에 따라 자기 자신과의 상관관계를 계산한 함수이다. 예를 들어, 시차가 1인 자기상관계수는 현재 값과 1시간 전 값 사이의 상관관계를 계산한다. 시차가 2인 자기상관계수는 현재 값과 2시간 전 값 사이의 상관관계를 계산한다. 이렇게 계산된 자기상관계수를 바탕으로 자기회귀 모델을 만들 수 있다.

 

회귀분석의 성능을 높이기 위해서는 여러 가지 가정이 만족해야 하는데, 그 가정 중에 잔차들이 서로 독립적이어야 한다는 가정이 있다. 이러한 관점에서 잔차들이 시간의 흐름에서 독립적인지를 확인하기 위해서 자기상관 분석을 한다. 확인하는 방법은 Autocorrelation Fuction(ACF)의 결과로 Autocorrelation=0에 가까운지를 확인하면 된다. 0이라면 독립적이라고 할 수 있다.

  • x축은 lag이고 y축은 correlation이다.
  • 0일 때는 당연히 1이다. 왜냐하면 자기 자신과의 관계기 때문에 당연히 1이 나온다.
  • x축 부분을 보면 파란색 범위가 보인다. 저 범위를 벗어나 있으면 Autocorrelation이 있다고 판단하고(use_vlines=True) 내부에 있다면 Autocorrelation이 없다고 판단한다)
  • 즉, 위 처럼 나온다면, ACF는 정상이고 문제가 없다고 할 수 있다.

 

편자기상관함수(Partial autocorrelation function, PACF)

시계열 데이터에서 자기회귀 모델을 만들 때 사용되는 개념으로, 다른 변수들의 영향을 배제하고 한 변수의 자기회귀 계수를 계산하는 방법이다. 

 


예를 들어, 주식 가격과 기온 데이터가 있다고 가정하자. 이때, 주식 가격이 자기회귀 모델을 만들기 위해 사용되는 변수이고, 기온은 주식 가격에 영향을 미치는 외부변수라고 가정한다. 이 경우, 자기상관함수는 주식 가격의 자기회귀 계수를 계산할 때 기온 데이터의 영향을 배제하지 못한다. 따라서, 자기상관함수를 사용하여 주식 가격의 자기회귀 계수를 계산하면, 기온 데이터의 영향이 포함된 결과가 나올 수 있다.

이때, 편자기상관함수는 기온 데이터의 영향을 배제하고 주식 가격의 자기회귀 계수를 계산할 수 있다. 예를 들어, 시차가 3인 편자기상관계수는 현재 값과 3시간 전 값 사이의 상관관계를 계산하되, 1시간 전 값과 2시간 전 값의 영향을 배제한 결과를 보여준다.

즉, 편자기상관함수는 한 변수의 자기회귀 계수를 계산할 때, 다른 변수들의 영향을 배제하여 정확한 결과를 도출할 수 있도록 도와주는 개념이다.

 

 

 

 

ARIMA 모델 (Auto regressive integrated moving average)

 

이동평균을 누적한 자기회귀를 활용하여 시계열 분석을 하는 것이다. 따라서 먼저 자기회귀(AR)모델과 이동평균(MA)모텔을 이해하고 있어야 ARIMA 모델을 알 수 있다.

 

정상성(Stationarity)

시계열 프로세스에 의해서 생성된 데이터들이 시간의 흐름에 따라서 통계적 속성(분포, 기대치, 분산 등)이 달라지지 않고 일정하다라는 조건이다. 즉, 정상성을 나타내는 시계열은 평균과 분산이 안정되어 있는 상태이다. 추세나 계절성이 없는 시계열 데이터로 만들어 주는 것이다. 이 조건이 만족되면, 분석하고 예측하기 편해진다. 

cf) 

 

정상성을 만족하지 않을 경우 비정상시계열을 정상시계열로 변환하여 분석을 수행한다. 분산이 일정하지 않은 경우 변환(Transformation)을 해주며, 추세가 있거나 가상의 평균을 지나는 회수가 매우 작을 경우 차분(difference)을 수행한다. 

 

추세와 계절성이 있는 시계열 vs 추세와 계절성이 없는 시계열

 

Transformation을 통한 증가하는 분산 완화

 

 

자기회귀 모델 (Autoregressive model, AR)

회귀 기반 시계열 분석에서 시차 변수만 사용한 개념

1개의 시차만 활용한 모델

X_t-n 시점에 대해 자기 상관계수 b를 곱해 오차항 w를 더해주었다. 3개의 시차를 활용할 경우 AR(3)모형이 된다. 

 

이동평균(Moving average, MA)모델

 시계열 데이터에서 추세(Trend)나 계절성(Seasonality)과 같은 주기성을 제거하기 위해 자주 사용되는 모델링 기법 중 하나이다. 이 모델은 일정 기간 동안의 데이터를 평균하여 이동평균값을 계산하는 방법으로, 이동평균값을 예측값으로 사용하는 방법이다.

MA모델은 이전 시점의 상태를 이용하여 현재를 예측하는 방식이 아니다. 이전 시점의 변동 값과 오차항을 이용하여 현재 상태를 추론한다.

 

 

ARIMA Model (Autoregressive Integrated Moving average Model)

위 두개의 모델을 AR(p), MA(q)라고 정의할 때, 두 모델을 결합하면 자기회귀평균모델인 ARMA(p, q)이 된다. 하지만 보통 시계열 데이터는 추세를 가지고 있으며 일정한 패턴을 가지고 있지 않은 경우가 많다. 따라서 이 부분을 보완하여 ARMA(p, q)모델 자체의 불안정성을 제거하는 기법을 결합한 모델이 ARIMA 모델이다. 

 

ARlMA 모댈은 과거의 데이터가 가지고 있던 추세까지 반영한다. 시계열의 비정상성을 설명하기 위해 시점 간의 차분을 사용하는 것이다. AR 모델의 자기 회귀 부분의 차수(p), MA 모델의 이동평균 부분의 차수(q), 그리고 1차 차분이 포함된 정도(d)를 포함하여 ARIMA(p, d, q)로 표현한다.