목록Research/Representations (8)
숟가락 그만 얹어

PCA를 제대로 알고 쓰는 사람이 몇 명이나 될까? (반성합니다ㅜ) PCA는 데이터를 차원이 축소된 공간으로 투영하되 이때 투영된 데이터의 variance가 maximize되도록 하는 projection unit vector u를 찾는 과정이다. 중요한 포인트는 not 데이터의 variance, but 투영된 데이터의 variance이다. 왼쪽 그림은 좋은 unit vector에 투영된 경우인데, 1차원 공간에서도 데이터 간의 distance 또는 variance가 원래 2차원 공간에서와 비슷하게 유지되는 것을 확인할 수 있다. 오른쪽 그림은 차원 축소로 인해 데이터의 표현력이 떨어져 차이가 잘 보이지 않는다. 투영된 데이터의 variance를 maximize하는 식은 다음과 같다. x(i)는 (1 x ..

Latent Z에 대한 mutual information (MI)를 minimize하여 source를 얻는 방법이다. MI는 exact computation이 어렵기 때문에 adversarial training을 이용하여 joint probability Pz1z2를 marginal probability Pz1Pz2 분포에 맞추는 방법을 이용한다. Marginal probability는 batch 단위의 데이터에서 batch-wise shuffling하여 feature 간의 independence를 유도한다. (야매) Decoder는 Z의 특성을 X에 constrain하는 역할을 한다. ICML에서 reject된 이유는 여러 가지 있겠지만, 일반적인 adversarial training은 generator..

Contribution 1. MINE [2]을 이용하여 X와 E(X)의 mutual information을 maximize하여 downstream task에 적합한 representation을 생성 2. X를 여러 개의 local patch로 나누고 E(X)와의 average mutual information을 maximize하여 pixel 단위의 noise를 제거한 representation 생성 3. Desirable statistical properties (compact, indepedent, disentagled)를 달성하기 위해 adversarial training을 이용하여 prior에 fitting References [1] R. D. Hjelm et al., Learning Deep Re..

모델이 위와 같이 주어졌을 때 information bottleneck은 다음의 식을 minimize하는 objective를 말한다. 오른쪽 첫 번째 term은 latent Z가 Y를 표현할 수 있는 sufficient statistics를 가져야 한다는 의미이고, 두 번째 term은 input X의 불필요한 정보를 Z에 담지 않는다는 의미이다. Beta를 통해 적절한 mutual information loss를 정의하는 것이 중요한데, beta가 크면 X에 대한 정보를 많이 잃을 것이고 beta가 작으면 pixel 단위의 noisy한 정보를 포함하고 있을 가능성이 크다.

Mutual information (MI)는 두 확률 변수 간의 mutual dependency를 나타낸다. 정의는 각 확률 변수의 marginal probability의 곱에 대한 joint probability의 비이다. Joint distribution을 안다면 non-linear dependency를 계산할 수 있어 단순 correlation을 계산하는 이상의 의미를 가질 수 있다. 그러나 각 확률 변수가 pmf form이거나 잘 알려진 pdf form이 아니라면 exact computation이 어렵다. 본 논문은 KL-divergence 정의를 relax하고 neural networks로 approximate하는 방법을 제안한다. Relax KL-divergence Form MINE 위 rep..

AutoEncoder 계열의 network에 다른 task를 붙여 training하는 연구를 찾다가 발견한 논문. VAE로는 brain image를 복원하고 regression layer를 붙여 brain age를 예측한다. 이렇게 하는 이유는 (1) regularize each other task (2) disentanglement represenation (진짜?)라고 한다. 일종의 multi-task learning이기 때문에 regularizing feature으로 얻는 성능 이득은 확실히 있다. References [1] Q. Zhao et al., Variational AutoEncoder for Regression: Application to Brain Aging Analysis, MICCA..

예전 FaceNet과 유사한데 같은 class의 데이터 sample은 가깝게, 다른 class는 멀도록 학습하는 representation learning 방법이다. 또 하나의 contribution으로는 input time-series의 길이에 구애받지 않도록 exponentially dilated causal convolution을 사용했다고 한다. References [1] J. Y. Franceschi et al., Unsupervised Scalable Representation Learning for Multivariate Time Series, NeurIPS 2019

아이디어는 간단하다. Reconstruction task와 K-means task, 그리고 real과 fake를 구분하는 classification task를 동시에 학습하여 얻은 feature는 clustering이 잘된다는 representation learning 연구이다. 특이한 점은 데이터의 time point를 randomly shuffling하여 fake 데이터를 생성한다는 것이다. 데이터의 시간적 순서가 중요할 때 써먹으면 좋을듯. References [1] Q. Ma et al., Learning Representations for Time Series Clustering, NeuIPS 2019