업무외시간 2021. 3. 21. 00:09

God이 추천해주신 논문. 먼저, video generation 문제를 해결하기 위한 여러 approach가 소개되어 있어 유익했다. Video는 대부분의 경우 다음 상황이 쉽게 예측되기도 하지만 (공을 던지면 어디로 날아갈까?), 그렇지 않은 경우도 있다 (공이 바닥에 떨어지면 어디로 튈까?). 전자와 후자를 background/motion, content/pose, mse/adversarial loss 등으로 생각해 볼 수 있을 것이다. 본 논문에서는 deterministic/stochastic 관점에서 learned prior을 이용하여 deterministic predictor에 예측의 난이도 (uncertainty)를 넘겨주는 model을 제안하였다. 아래 그림에서 training은 (b), inference는 (c)에 해당한다.

 

SVG-LP

- 위 그림에서 training과 inference는 time 1:t에 대해 autoregressively 진행된다.

- Inference model은 target을 input으로 Gaussian output을 생성한다.

- Learned prior은 target-1을 input으로 Gaussian output을 생성한다.

- KL divergence를 이용하여 두 모델의 output 분포의 거리를 최소화한다.

- Learned prior에서 sampling된 latent z는 target을 예측하는 정보를 담고 있을 것.

- Prediction model에 target-1과 latent z을 input으로 다음 frame을 예측한다.

 

논문을 읽으면서 domain에 대한 특성을 고민하는 방식과 그것을 반영한 모델링을 어떻게 수행하는지 배울 수 있어 유익했다.

 

References

[1] E. Denton et al., Stochastic Video Generation with a Learned Prior, ICML 2018