업무외시간 2021. 10. 25. 11:44

DIP-VAE Loss

VAE loss에 aggregated posterior를 prior에 가깝게 하는 loss를 추가한다. 새로운 loss를 추가하는 건 그럴 수도 있다고 생각하는데 이게 왜 좋은지에 대한 설명이 잘 이해가 안 간다. (ELBO의 non-convexity가 variational inference의 global minimum을 달성하기 어렵게 한다고 한다.) 여러모로 a given sample q(z|x)에 대해 prior에 맞추는 것보단 aggregated latents q(z) 덩어리를 prior에 맞추는 것이 batch_dim으로도 indepenence를 enforce하여 얻는 이득이 많은 것 같다.

 

논문에서 마지막 loss term을 계산하기 위해 q(z)의 covariance를 p(z)의 covariance에 맞추는 작업을 하였다. 이때 q(z)의 covariance를 두 개의 term으로 나누었다.

 

q(z) Covariance

쉽게 생각하면 제곱의 평균 (encoder의 variance ouput에 대한 expectation) + 평균의 제곱 (encoder의 mean output에 대한 covariance)이다. RHS의 첫 번째 term은 ELBO의 KL term에 의해서 이미 계산된다. 두 번째 term은 mean representation에서도 latent feature 간의 independent가 보장되어야 한다는 이야기인데, 보통 Gaussian parameter에서 sampling하여 decoder에 넘겨준다고 치면 이게 꼭 중요한 건지는 잘 모르겠다. 물론 mean represenation을 그대로 활용한다면 필요할 듯.

 

References

[1] A. Kumar et al., Variational Inference of Disentangled Latent Concepts from Unlabeled Observations, ICLR, 2018