목록전체 글 (87)
숟가락 그만 얹어

보통은 training data X, Y에 대하여 최적의 weights 값을 찾아 deterministic function f(x, w) = y를 찾는 것이 목표지만, BNN은 weights를 확률 분포로 모델링하여 stochastic function을 얻고자 한다. Inference 시 확률 분포에서 weights를 sampling하므로, 여러 번 sampling 하면 y에 대한 예측 값 (mean)과 uncertainty (variance)를 계산할 수 있다. 직접 weights에 대한 posterior를 구할 수 없기 때문에 q로 approximate한다. q는 Gaussian (Bayes by Backprop)으로 가정할 수도 있고, Dropout으로 (Dropout as Bayesian Appr..

x(i)는 input image의 한 pixel이다. x'은 baseline으로 random 값일 수도 있고 0일 수도 있다. x'이 0이라면 검정 배경의 이미지를 서서히 밝게 하면서 누적되는 gradients를 평균하여 input image에 곱한다. 단순 gradient를 importance로 사용하지 않는 이유는 sensitivity 특성을 만족하기 위함이다. x(i) 값이 바뀌었을 때 y의 값도 바뀐다면 x(i)에 대한 contribution이 있어야 하는데 그러지 못한 경우가 있기 때문이다. (ex. 1 - RELU(1 - x) when x > 1) 위 식에서 derivative term의 분모는 사실 d(x' + alpha(x - x'))가 되어야 path method의 정의에 더 부합한다고 ..

Softmax 확률을 uncertainty로 활용할 수는 있지만 딥러닝은 over-confident한 경우가 많다. Over-fitting이 안 일어나도록 학습을 시켰다고 하더라도 잘 모르는 문제를 너무 자신있게 틀린다는 것이다. (Generalization에 취약하다고 말하는 것이 맞겠다.) 위 그림에서 LeNet에 비해 ResNet은 모델의 평균 accuracy와 평균 confidence 사이의 gap이 크다. 우리 입장에서는 모델이 잘 모르는 문제를 맞추더라도 모른다고 해줘야 해석하기 용이하다. 위 현상에 대한 해결법은 logits을 적당한 constant term으로 나누어주고 softmax 함수를 통과시키면 된다. 이런 technique은 자주 나오는 패턴이다. References [1] C. ..

PCA에서의 Explainable AI다. [1] 논문에서는 complete decomposition contribution (CDC), partial decompostition contribution (PDC), diagonal contribution (DC), reconstruction-based contribution (RBC), angle-based contribution (ABC)를 비교하고, 위 방법들에다가 relative contribution을 적용하는 방법을 제안하였다. Simulation study로 특정 센서에 임의로 fault를 일으켜 그 센서에서 contribution 값이 실제로 증가하는지를 실험/증명하였는데, CDC를 제외하고는 대체로 비슷한 성능을 보였다. CDC와 PDC만 ..

Policy gradient는 사실 policy iteration과 policy를 update하는 방식이 같다고 한다. 현재 policy로 reward 또는 value를 추정하고, 그 결과로 다시 policy를 update하는 방식이다. Policy iteration은 Bellman update로 항상 수렴하기 때문에 특정 조건 하에서는 policy gradient도 항상 수렴할 수 있다고 한다. 여러 수학적 증명은 생략하고, 현재 policy와 updated policy 간의 distance를 epsilon 이하로 줄여야 한다는 것이다. 이것이 TRPO와 PPO가 탄생한 배경이다. References [1] Berkeley, CS285

실험에 사용한 코드는 여기에... https://github.com/HanSangJun/Time-Series-Anomaly-Detection HanSangJun/Time-Series-Anomaly-Detection Time-series Anomaly Detection. Contribute to HanSangJun/Time-Series-Anomaly-Detection development by creating an account on GitHub. github.com 실험에 사용한 데이터셋은 Tennesse Eastman Process 2001이다. 이 데이터셋은 reactor, condenser, compressor, separator, stripper로 구성된 화학 공정을 모사하여 생성된 시뮬레이션 데..

데이터의 특성에 따라 anomaly detection, predictive maintenace, fault detection, one-class classification 등으로 불리는 이 문제는 정상 데이터만으로 모델링을 수행하고, 통계적 threshold를 설정하여 비정상 outlier를 검출하는 것이다. PCA로 모델링을 하면 특정 time t에서 센서 간의 관계성은 잘 반영하지만 (cross-correlation), 시간적인 변화 특성은 반영하지 못한다 (auto-correlation). 직접 실험을 해보면 이상 패턴이 연속적으로 여러 시간에 걸쳐서 나타나는 경우에는 PCA가 그리 효과가 없다. 이를 해결하기 위해 Dynamic PCA, CVA 같은 method는 covariance 계산 시 센서..