숟가락 그만 얹어

The M4 Forecasting Competition: A Practitioner’s View 본문

Research/Forecasting

The M4 Forecasting Competition: A Practitioner’s View

업무외시간 2020. 7. 19. 00:13

M4 Competition을 통해 forecasting 문제 trend와 나아갈 방향을 논의함.

 

1. Forecasting Competition

 

Theme 1: 시간 주기의 변화

- 구글에서는 day, hour, min 단위 짧은 주기의 시계열 데이터를 주로 다룸

- 비즈니스 변화의 주기, 자동화, agile planning 등으로 인해 짧은 주기 데이터의 효용성이 높아짐

- 그러나 짧은 주기의 데이터는 다양한 문제를 야기함 (noisy, high spectral entropy, weaker trend, weaker autocorrelation)

- Trend 또한 다양한 요인들로 인해 모델링하기 어려워짐 (ex. hour-of-day, day-of-week…)

- 시간 주기가 irregular 또는 sparse한 경우가 많음 -> temporal aggregation techniques

 

Theme 2: 계층적 시계열 데이터

- 많은 예측 문제는 여러 시계열 데이터를 동시에 예측해야함

- 데이터끼리 서로 연관성이 높거나 계층적인 경우가 많음

- 구글 예) 어떤 대륙에 속한 / 제품군에 대한 / 제품을 예측

- 2019년 1월 기준으로 R package의 “hts” 알고리즘이 매달 7,000번 이상 다운로드 되는 이유

 

Theme 3: Feature의 중요성

- Categorical attributes, exogenous, hierarchical relationship, logical constraints

- Google trend 예측의 경우 historical 시계열 데이터보다 external feature가 더 중요했음

- M competition vs. Kaggle competition, external feature을 활용할수록 ML이 좋았음

 

Theme 4: Prediction interval의 중요성

- 정확한 값을 예측하는 것보다는 interval을 예측하는 것이 더 중요한 경우가 많음

- 구글 예) Google data center -> 95% prediction interval

 

Theme 5: 다양하고 복잡한 데이터

- Sparse, all-constants, dynamic ranges, discernible pattern, no direct history

- Hybrid approach -> 각각 데이터에 최적화된 알고리즘을 통합하는 방향으로 solution

- Hybrid approach를 통해 다양한 환경에서도 작동, end-to-end

- 예측이 안될 것 같은 데이터를 예측할 수 있어야 한다??

 

2. 성공적인 Forecasting 문제 해결 방법

 

Theme 1: Global models > local models

- Models trained across time series will have greater predictive power

 

Theme 2: ML > statistical in nature

 

Theme 3: Smart combining > ensembling

- M4 competition 1등: ES(exponential smoothing)-RNN

- M4 competition 2등: Feature-based Forecast Model Averaging

 

Theme 4: Prediction interval의 중요성

- 구글에서는 prediction interval을 validate하기 위해 backtesting을 사용

 

References

[1] C. Fry et al., "The M4 Forecasting Competition: A Practitioner’s View", International J. of Forecasting, July 2019

'Research > Forecasting' 카테고리의 다른 글

N-BEATS  (0) 2020.09.04
Deep Factors  (0) 2020.08.24
DeepAR  (0) 2020.08.14