목록전체 글 (87)
숟가락 그만 얹어
{ "name": "10.229.58.80", "host": "10.229.58.80", "protocol": "sftp", "port": 22, "username": "user1", "privateKeyPath": "D:\\LG AI Research\\개발환경\\10.229.58.80", "remotePath": "/shared/workspace/sjhan", "uploadOnSave": false, "downloadOnOpen": true, "ignore": [".vscode", ".git", ".DS_Store" ] }
chmod 777 -R sjhan 할 경우 folder의 background color가 극혐인 문제 vi ~/.bashrc # 아래 command 추가 LS_COLORS="$LS_COLORS:ow=1;34:tw=1;34:" source ~/.bashrc

Latent Z에 대한 mutual information (MI)를 minimize하여 source를 얻는 방법이다. MI는 exact computation이 어렵기 때문에 adversarial training을 이용하여 joint probability Pz1z2를 marginal probability Pz1Pz2 분포에 맞추는 방법을 이용한다. Marginal probability는 batch 단위의 데이터에서 batch-wise shuffling하여 feature 간의 independence를 유도한다. (야매) Decoder는 Z의 특성을 X에 constrain하는 역할을 한다. ICML에서 reject된 이유는 여러 가지 있겠지만, 일반적인 adversarial training은 generator..

Contribution 1. MINE [2]을 이용하여 X와 E(X)의 mutual information을 maximize하여 downstream task에 적합한 representation을 생성 2. X를 여러 개의 local patch로 나누고 E(X)와의 average mutual information을 maximize하여 pixel 단위의 noise를 제거한 representation 생성 3. Desirable statistical properties (compact, indepedent, disentagled)를 달성하기 위해 adversarial training을 이용하여 prior에 fitting References [1] R. D. Hjelm et al., Learning Deep Re..

모델이 위와 같이 주어졌을 때 information bottleneck은 다음의 식을 minimize하는 objective를 말한다. 오른쪽 첫 번째 term은 latent Z가 Y를 표현할 수 있는 sufficient statistics를 가져야 한다는 의미이고, 두 번째 term은 input X의 불필요한 정보를 Z에 담지 않는다는 의미이다. Beta를 통해 적절한 mutual information loss를 정의하는 것이 중요한데, beta가 크면 X에 대한 정보를 많이 잃을 것이고 beta가 작으면 pixel 단위의 noisy한 정보를 포함하고 있을 가능성이 크다.

Mutual information (MI)는 두 확률 변수 간의 mutual dependency를 나타낸다. 정의는 각 확률 변수의 marginal probability의 곱에 대한 joint probability의 비이다. Joint distribution을 안다면 non-linear dependency를 계산할 수 있어 단순 correlation을 계산하는 이상의 의미를 가질 수 있다. 그러나 각 확률 변수가 pmf form이거나 잘 알려진 pdf form이 아니라면 exact computation이 어렵다. 본 논문은 KL-divergence 정의를 relax하고 neural networks로 approximate하는 방법을 제안한다. Relax KL-divergence Form MINE 위 rep..
와... Kaggle에서 너무 좋은 posting 발견! 고수는 장비를 탓하지 않는다... 무난한 방법 데이터가 csv 형태로 주어졌을 때 datatable로 read하고 pandas로 바꾼 다음, column 별로 적절한 datatype으로 변환. 실험이 필요한 방법 csv를 pickle이나 jay로 다시 저장하고 불러오는 방법. (jay to pandas 가능?) References [1] www.kaggle.com/rohanrao/tutorial-on-reading-large-datasets

Distributional uncertainty는 categorical distribution으로부터 추정되는 uncertainty로, Dirichlet distribution을 따른다고 가정한다. Dirichlet distribution은 k개 class에 대한 확률 값을 (0~1) 표현한 분포로 out-of-distribution example에 대해서는 분산이 커진다. (hyper-parameter인 alpha를 NN의 output으로 학습한다) Uncertainty를 measure하는 metric 중에 Mutual Information (MI)은 다음과 같이 정의될 수 있다. 위 식은 MI의 정의인 H(y) - H(y|theta)와 같다. 앞 term은 theta가 marginalized out ..
One-hot encoding된 y_train에 대해 factor = 0.2 # 적당한 값으로 y_train = (1 - factor) * y_train + (factor / num_classes) References [1] C. Szegedy et al., Rethinking the Inception Architecture for Computer Vision, CoRR 2015
모델의 efficiency를 설명할 때 주로 사용되는 metric인 FLOPs (floating point operations)는 다음과 같이 계산될 수 있다. matrix A의 shape이 (m, p)이고 matrix B의 shape이 (p, q) 일 때 dot(A, B)의 FLOPs는 mq(2p-1)이다. dot operation이 row vector와 column vector사이의 곱하기와 더하기 연산으로 수행되는 것을 생각해보면 곱하기에 대해서는 mqp번, 더하기 연산은 mq(p-1)번 수행된다. (n개 elements를 더하려면 n-1번을 수행) 그러므로 총 FLOPs는 mqp + mq(p-1) = mq(2p-1)이 된다. Tensorflow에서 제공하는 profiler는 2mqp로 계산되는데 ..