업무외시간 2021. 2. 19. 10:46

VAE loss = likelihood + (beta * KL loss)

 

Autoregressive VAE 중 posterior collapse를 방지하기 위해 고안된 scheduling technique으로 학습 초기에는 beta 값을 작게 하여 latent z에 의미 있는 정보가 담기도록 강제하고, beta 값을 점점 키워 prior에 맞추도록 한다.

KL Annealing when rate=0.9

def kl_annealing(epoch, start, end, rate=0.9):
    return end + (start - end)*(rate)**epoch

 

References

[1] S. R. Bowman et al., Generating Sentences from a Continuous Space, CoNLL 2016