목록Research (68)
숟가락 그만 얹어
신입 사원일 때부터 늘 논문을 쓰고 싶었는데 과제 하느라 바쁘기도 했고 막상 시간이 주어졌을 때는 한 주제에 깊이 몰입하지 못했던 것 같다. 논문이라는 것이 회사 입장에서 어떤 큰 impact가 있겠냐마는 엔지니어에게는 내가 노력한 것을 확실한 형태로 증명하는 수단이고, 내 이야기의 소재가 된다 (가수에게 자작곡이 이런 느낌일까). ISMIR 논문은 곡을 단순히 길게 생성하는 것보다는 의미 있는 단위로 생성하여 quality를 향상시키겠다는 동기에서 시작하였다. 두 번의 reject을 먹고 (처음에는 novelty 부족, 두 번째는 poor writing), 회사에 있는 박사님의 도움을 받고서야 accept 되었다. 생각보다 많은 Music AI 연구자들이 내 연구를 알고 관심을 가져주는 것을 보면 신기..

기존의 classifier-based guidance는 noise level에 따른 classifier를 따로 학습시켜야 할 뿐만 아니라 classifier based metric인 IS와 FID를 의도적으로 향상하기 위한 adversarial attack일 수 있다고 저자는 주장한다. 본 논문에서 제안하는 guidance 방식은 conditional diffusion model의 output과 unconditional model의 output의 차이의 방향으로 sample을 생성하도록 유도한다. 이때 unconditional model은 conditional model의 condition을 0 또는 null을 나타내는 방식으로 만든다 이는 여러 가지로 해석이 가능한데, 1) implicit classi..

Diffusion model의 sampling step을 줄이기 위해 제안된 연구. DDPM의 generalized version이라고 볼 수 있겠다. 논문이 어렵게 쓰여있지만 key idea는 sigma라는 stochastic parameter를 두어 q(x(t-1)|x(t), x(0))에 대해 새로운 form을 제안한 것이다. 이 form은 여전히 nice property를 만족한다. (즉, nice property를 만족하면서 x(t)와 x(0)를 condition으로 사용하는 form을 제안) [2]에서는 위 form을 forward/reverse process의 mu function을 x(t)와 noise의 linear combination으로 가정한 것이라고 해석한다. (즉, 각 process..

Diffusion model의 아이디어는 잉크가 물속에서 퍼져나가는 과정 (forward process)과 이를 역으로 되돌리는 과정 (reverse process)으로 이루어져 있다. 이미 퍼져나간 잉크를 다시 한데 모으는 것은 매우 어려울 것이다. 그러나 시간을 잘게 쪼개면 순간의 입자 운동은 예측 가능할 것이고, 거꾸로 모으는 것도 가능할 수 있다. Objective 여러 likelihood-based generative model이 그렇듯이 p(x)를 잘 모델링하여 high-quality fake sample을 생성하는 것이 diffusion model의 objective이다. VAE와 유사하게 latent model이지만, 시간에 따른 여러 trajectory path가 있고 latent spa..
설명 가능한 AI는 설명 가능한가? 기술 철학을 연구하시는 한동대 손화철 교수님께서 던지신 질문이다. 먼저 교수님과의 최초의 만남을 떠올려보자면 11년도 신입생 OT 중 학관 1층 어떤 강의실이었을 것이다. 교수님께서는 2학년 선배들의 말을 믿지 말라, 3학년 선배들의 말을 믿지 말라, 4학년 선배들의 말을 믿지 말라고 하셨고 나는 6년 동안 정말 하고 싶은 대로 했다. 그리고 학점은 엉망이 되었다. 물론 내 인생에서 가장 즐거운 시절이었을 것이다. 두 번째 만남은 16년도 고전강독이라는 강의에서 플라톤의 국가를 함께 읽었었다. 매주 수업 전날에 힘들게 읽어갔던 기억만 남아있고 무슨 내용이었는지는 잘 모르겠다. 나도 내가 공부한 분야에 한해서는 어느 정도 전문가라는 자부심이 있었는데, 위 질문에서 내가 ..

PCA를 제대로 알고 쓰는 사람이 몇 명이나 될까? (반성합니다ㅜ) PCA는 데이터를 차원이 축소된 공간으로 투영하되 이때 투영된 데이터의 variance가 maximize되도록 하는 projection unit vector u를 찾는 과정이다. 중요한 포인트는 not 데이터의 variance, but 투영된 데이터의 variance이다. 왼쪽 그림은 좋은 unit vector에 투영된 경우인데, 1차원 공간에서도 데이터 간의 distance 또는 variance가 원래 2차원 공간에서와 비슷하게 유지되는 것을 확인할 수 있다. 오른쪽 그림은 차원 축소로 인해 데이터의 표현력이 떨어져 차이가 잘 보이지 않는다. 투영된 데이터의 variance를 maximize하는 식은 다음과 같다. x(i)는 (1 x ..

Generative model인 VAE에 GradCAM을 적용한 논문이다. dy/dx를 계산하는 것이 아니라 dz/dx를 계산하고 이를 feature activation map과 곱해준다. 재미있는 점은 모든 z(i)에 대해서 dz(i)/dx를 계산해주기 때문에 disentangle이 잘 되어있으면 각 latent의 semantic에 해당하는 attention map을 얻을 수도 있을 것 같다. 논문에서는 주로 anomaly detection으로 문제를 설정해놓고 anomaly localization 성능을 비교하였는데, 논문의 주장과는 달리 [2]에 따르면 SOTA 성능 reproduce가 안되었다고 한다. References [1] W. Liu et al., Towards Visually Explai..
크게 time-based representation과 voltage-based representation으로 나눌 수 있겠다. Time-based Representation 시간에 따른 전압, 전류, 온도, 용량의 특성을 이용하여 task를 수행한다. 충방전 raw data를 그대로 활용하기가 쉽지 않은 게 배터리마다 완전 충전 혹은 방전되는 시점이 다르다. 데이터의 length를 맞추기 위해 padding을 고려해볼 수 있겠지만 적절한 padding을 선택하기 어렵고 불필요한 연산만 증가시킨다. [1] 논문에서는 충전에서 CC duration, CV duration, slope을 feature로 활용하여 SOH를 추정하였다. 수명이 오래된 배터리일수록 내부 저항 등으로 인한 over-potential이..
Disentanglement는 해결 가능한 문제인가? [1] 논문에서는 이론적인 증명 (inductive bias 없이는 어렵다...)과 여러 모델이 진정한 의미에서의 disentangled representation을 생성하는지 실험적으로 관찰하였다. 1. 실제로 모델이 uncorrelated posterior를 생성하는가? Sampled representation (z ~ N(mu, sigma))이라면 regularizer strength에 따라 correlation이 조절된다. 그러나 mean representation (mu)은 오히려 strength가 커질수록 correlated 되는 경향을 보인다. 2. 여러 disentanglement metric 간에 연관성이 있는가? 대체로 그렇다. 3...

VAE loss에 aggregated posterior를 prior에 가깝게 하는 loss를 추가한다. 새로운 loss를 추가하는 건 그럴 수도 있다고 생각하는데 이게 왜 좋은지에 대한 설명이 잘 이해가 안 간다. (ELBO의 non-convexity가 variational inference의 global minimum을 달성하기 어렵게 한다고 한다.) 여러모로 a given sample q(z|x)에 대해 prior에 맞추는 것보단 aggregated latents q(z) 덩어리를 prior에 맞추는 것이 batch_dim으로도 indepenence를 enforce하여 얻는 이득이 많은 것 같다. 논문에서 마지막 loss term을 계산하기 위해 q(z)의 covariance를 p(z)의 covari..