Posterior Collapse
Seqeuence 모델을 VAE 형태로 표현하면 global latent z를 이용하여 다양한 속성의 sequence를 생성할 수 있다. 이때, decoder가 encoder의 condition을 무시하고 sequence를 생성하는 posterior collapse 현상이 자주 발생한다고 한다. VAE loss에서 KL term이 0이 되는, 어떤 local optima에 빠지는 상황인데 한동대 김인중 교수님께서 그 이유를 잘 정리해주셨다.
Posterior collapse가 발생하는 이유
1. Decoder가 latent z 없이 과거 데이터만으로 충분히 generation이 가능한 경우
2. Ill-posed problem이기 때문에 조건에 맞는 다양한 latent z가 존재할 수 있는 가능성
3. VAE가 local information을 선호하는 경향 (즉, z가 sequence 전체의 속성을 담지 못하고 next-step prediction을 위해서만 사용됨, KL term보다 likelihood term에 집중되는 경향)
4. 학습 초기에 encoder가 meaningful z를 표현하지 못하기 때문에
5. 가정한 Gaussian prior는 사실 아무 정보가 없음
6. ELBO와 evidence 사이의 gap, true posterior approximation의 실패
References
[1] S. R. Bowman et al., Generating Sentences from a Continuous Space, CoNLL 2016