목록Research (68)
숟가락 그만 얹어

Vector norm의 정의 Vector의 길이 ||v||를 표현하는 수단. 자주 접하게 되는 l1-norm, l2-norm 등이 이에 해당한다. Positivity, homogeneity, triangle inequality를 만족해야 한다. Matrix norm의 정의 Linear operator의 크기 ||A||를 표현하는 수단. ||Ax||

God이 추천해주신 논문. 먼저, video generation 문제를 해결하기 위한 여러 approach가 소개되어 있어 유익했다. Video는 대부분의 경우 다음 상황이 쉽게 예측되기도 하지만 (공을 던지면 어디로 날아갈까?), 그렇지 않은 경우도 있다 (공이 바닥에 떨어지면 어디로 튈까?). 전자와 후자를 background/motion, content/pose, mse/adversarial loss 등으로 생각해 볼 수 있을 것이다. 본 논문에서는 deterministic/stochastic 관점에서 learned prior을 이용하여 deterministic predictor에 예측의 난이도 (uncertainty)를 넘겨주는 model을 제안하였다. 아래 그림에서 training은 (b), i..

Efficient implementation을 위해 위 식을 tensor 형태로 표현하면 Key : (batch_size, head, seq_length, d)Query : (batch_size, head, seq_length, d)A : (seq_length, seq_length, d) Tensor A는 embedding (i, j)의 learnable position distance 정보를 담고 있음. i와 j의 relative distance가 일정 이상 (k) 멀어지면 clip하여 설정한 index k 또는 -k의 embedding이 사용되도록 설계함. Query * Key : (batch, head, seq_length, seq_length)Query * A : (batch_size, head,..

PreprocessTime-grid based representation: 16-note interval로 quantization을 수행. 결과적으로 한 마디에 16개의 note가 찍힘. Monophony melody의 경우 128 note-on, 1 note-off, 1 rest로 총 130 class로 구성되며 drum의 경우 9개의 북 또는 심벌을 치는 경우의 수 2^9 class로 표현됨. (one-hot vector) Model- Recurrent VAE- Latent vectors can capture the global characteristic of data- Hierarchcal decoder: preventing posterior collapse / generating long-term..

Preprocess Event-based representation: note-on, note-off, time-shift, velocity에 대한 event를 one-hot vector로 표현하여 sequentially 나열한다. Model - Autoregressive LSTM - Input as 413-dimensional one-hot vectors - Teacher forcing for training - Sampling output from beam search 이외에도 music generation에 대한 전반적인 개요를 설명해주는 좋은 논문. References [1] S. Oore et al., This Time with Feeling: Learning Expressive Musical ..

VAE loss = likelihood + (beta * KL loss) Autoregressive VAE 중 posterior collapse를 방지하기 위해 고안된 scheduling technique으로 학습 초기에는 beta 값을 작게 하여 latent z에 의미 있는 정보가 담기도록 강제하고, beta 값을 점점 키워 prior에 맞추도록 한다. def kl_annealing(epoch, start, end, rate=0.9): return end + (start - end)*(rate)**epoch References [1] S. R. Bowman et al., Generating Sentences from a Continuous Space, CoNLL 2016

Seqeuence 모델을 VAE 형태로 표현하면 global latent z를 이용하여 다양한 속성의 sequence를 생성할 수 있다. 이때, decoder가 encoder의 condition을 무시하고 sequence를 생성하는 posterior collapse 현상이 자주 발생한다고 한다. VAE loss에서 KL term이 0이 되는, 어떤 local optima에 빠지는 상황인데 한동대 김인중 교수님께서 그 이유를 잘 정리해주셨다. Posterior collapse가 발생하는 이유 1. Decoder가 latent z 없이 과거 데이터만으로 충분히 generation이 가능한 경우 2. Ill-posed problem이기 때문에 조건에 맞는 다양한 latent z가 존재할 수 있는 가능성 3. ..

Latent Z에 대한 mutual information (MI)를 minimize하여 source를 얻는 방법이다. MI는 exact computation이 어렵기 때문에 adversarial training을 이용하여 joint probability Pz1z2를 marginal probability Pz1Pz2 분포에 맞추는 방법을 이용한다. Marginal probability는 batch 단위의 데이터에서 batch-wise shuffling하여 feature 간의 independence를 유도한다. (야매) Decoder는 Z의 특성을 X에 constrain하는 역할을 한다. ICML에서 reject된 이유는 여러 가지 있겠지만, 일반적인 adversarial training은 generator..

Contribution 1. MINE [2]을 이용하여 X와 E(X)의 mutual information을 maximize하여 downstream task에 적합한 representation을 생성 2. X를 여러 개의 local patch로 나누고 E(X)와의 average mutual information을 maximize하여 pixel 단위의 noise를 제거한 representation 생성 3. Desirable statistical properties (compact, indepedent, disentagled)를 달성하기 위해 adversarial training을 이용하여 prior에 fitting References [1] R. D. Hjelm et al., Learning Deep Re..

모델이 위와 같이 주어졌을 때 information bottleneck은 다음의 식을 minimize하는 objective를 말한다. 오른쪽 첫 번째 term은 latent Z가 Y를 표현할 수 있는 sufficient statistics를 가져야 한다는 의미이고, 두 번째 term은 input X의 불필요한 정보를 Z에 담지 않는다는 의미이다. Beta를 통해 적절한 mutual information loss를 정의하는 것이 중요한데, beta가 크면 X에 대한 정보를 많이 잃을 것이고 beta가 작으면 pixel 단위의 noisy한 정보를 포함하고 있을 가능성이 크다.