목록전체 글 (87)
숟가락 그만 얹어

[1] 논문에서는 reconstruction과 disentanglement 사이의 tradeoff 관계를 개선시킬 수 있는 방법을 제안하고 있다. 문제는 VAE loss에서 KL term을 minimize하면 x와 z 간의 mutual information이 줄어들어 reconstruction이 어렵게 된다. 게다가 beta 값을 크게 하면 할수록 이 현상이 심해진다. FactorVAE는 beta 값을 조절하지 않고 새롭게 total correlation term을 추가하는 것을 제안한다. 여기서 q(z)는 encoder를 통과한 batch 단위의 latent feature로 볼 수 있고, tilda q(z)는 batch dim과 feature dim으로 permutation한 분포라고 할 수 있다. 즉..

KL term에 beta를 두어 diagonol covariance를 가진 Gaussian prior에 posterior를 더 잘 맞추도록 한다. Information bottleneck 관점에서 beta는 channel capacity를 조절하는 coefficient인데, beta 값을 크게 하면 데이터 사이의 information이 중첩되어 decoding이 어려워진다. 예를 들어 위 그림에서는 tilda x가 실제로는 q(z2|x2)에서 sampling 되었음에도 q(z1|x1)에서 likelihood가 더 크게 계산된다. 그렇다고 이 상황이 최악인 것은 아니다. 데이터의 information 중첩될 것이라 가정하고 최대한 reconstruction error을 줄이려면 서로 비슷한 데이터끼리 모이..
# s3fs install apt install s3fs # key registration echo acess_key_id:secret access key > server_configure/.passwd-s3fs chmod 600 ./server_configure/.passwd-s3fs # mount to sjhan folder s3fs sjhan ./aws_s3 -o passwd_file=./server_configure/.passwd-s3fs
https://soundcloud.com/sangjun-han-778114796

Virtual Adversarial Training (VAT) 논문의 Section 3.3만 간단하게 정리. Second derivative term만을 이용한 noise 생성이라 dramatic한 augmentation은 아닐 것으로 판단된다. References [1] T. Miyato et al., Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning, PAMI 2017

특이하게 ImageNet을 labeled set, JFT를 unlabeled set으로 하여 서로 다른 category set임에도 semi-supervised learning을 수행하였다. 아래 그림이 사실 학습 과정의 전부다. 먼저 labeled set으로 teacher model을 학습하고 unlabeled set에 대해 pseudo label (soft label)을 생성한다. Labeled set과 pseudo labeled set을 모아 student model을 새로 학습시키는데 이때 여러 noise injection 방법을 사용한다. 학습한 student model은 다시 teacher model이 되어 새로운 student 모델을 학습하여 생성한다. Implementation detail..
Contribution - Single forward pass로 training procedure를 유지한채로 uncertainty를 계산할 수 있다. - OOD detection 성능이 Deep Ensembles과 맞먹거나 더 좋다. Aleatoric uncertainty Softmax의 entropy를 사용하였다. Epistemic uncertainty p(y|x)인 모델을 학습시킨 후에 latent z를 활용하여 Gaussian discriminant analysis (GDA)를 따로 학습시켜 z에 대한 feature density (q(z))를 구성하였다. q(z)에 대한 marginal likelihood로 epistemic uncertainty를 계산한다. - p(y|x)와 q(z)를 동시에 ..

Generative learning algorithm 중 하나인 GDA는 p(y|x)를 구하는 Bayes rule (p(y|x) = p(x|y)p(y), classification 문제라면 분모 term p(x)은 필요 없다)에서 p(x|y)를 Gaussian으로 모델링하는 것이다. 2 class classification 문제라면 아래와 같이 모델링이 가능하다. 이때 학습이 필요한 parameter는 Bernoulli의 phi, Gaussian의 u0, u1, cov (모든 class가 cov를 공유한다)이다. 각 parameter는 empirically 계산하면 된다. References [1] http://cs229.stanford.edu/notes/cs229-notes2.pdf

Uncertainty 관련 논문들에서 언급되는 epstemic과 aleatoric uncertainty를 다시 정리해보고자 한다. 첫 번째로 uncertainty에 대한 모델링은 아래 predictive distributuon에 대한 entropy로 정의 가능하다. 위 식에서 randomness는 p(z)로부터 발생하는 noise와 W ~ q(W)에 기인한다. p(z)는 observation에 내재된 noise로 irreducible하며 (aleatoric), q(W)는 더 많은 데이터의 수집으로 approximation을 잘하면 randomness를 줄일 수 있다. 두 번째로 epistemic과 aleatoric은 mutual information 식으로도 표현이 가능한데, 좌변의 첫 번째 term은 ..

후아, 다른 분들이 정리해둔 포스팅을 읽고 겨우겨우 따라갈 수 있었다... GAN의 training stability를 향상하기 위해 dicriminator의 각 layer weight를 largest singular value로 나누어준다. 왜??? - 각 layer weight의 largest singular value는 Lipschitz norm의 역할을 한다. - Lipschitz norm은 함수의 기울기를 일정 미만 (gradient의 principle direction scale)으로 제한시키는 역할을 한다. - 이를 spectral_norm(gradient(g(h)))로 구할 수 있는데 g(h) = Wh라면 이는 spectral_norm(W)과 같고, spectral norm은 largest..