vicreg-variance-invariance-covariance regularization for self-supervised learning

2022-07-17 | 阅读：次

variance regularization

\[v(Z)=\frac 1d\sum_{j=1}^d \max(0,\gamma-S(z^j,\epsilon)),\ S(x,\epsilon)=\sqrt{Var(x)+\epsilon}\tag1\]

$d$是dimension（维度），$\gamma$是一个常数，实验中fix到1，在每一个维度上做hinge loss。作者称之为variance regularization。直观上，这一项希望一个batch内feature的方差在每一个dimension为$\gamma$，这样就可以保证模型不会将所有的输入都映射到一个点，防止了坍塌。

covariance regularization

作者这里借鉴了Barlow Twins的想法，设计了如下loss $C(Z)=\frac 1{n-1}\sum_{i=1}^n (z_i-\bar z)(z_i-\bar z)^T, \bar z=\frac 1n\sum_{i=1}^n z_i\tag2$

\[c(Z)=\frac 1d \sum_{i\neq j}[C(Z)]^2_{i,j}\tag3\]

在batch的维度上先白化（减$\bar z$），再求feature之间的相关性，实际上$C(Z)$是一个$d\times d$的矩阵。那么$c(Z)$的目标是想让$C(Z)$为单位阵。也就是说，希望每个维度之间不相关，防止他们维度之间过于相似（decorrelate）。

MSE loss

还有一项就是两个增强后的图像得到的feature应该相近，作者这里直接使用了MSE loss。 $s(Z,Z^\prime)=\frac 1n \sum_i \|z_i-z_i^\prime\|_2^2$

iamzihan

曹子晗

vicreg-variance-invariance-covariance regularization for self-supervised learning

目录

variance regularization

covariance regularization

MSE loss

伪代码