Wang CVPR19 Multi-Similarity Loss with General Pair Weighting for Deep Metric Learning¶

https://arxiv.org/abs/1904.06627

著者 (全員 Malong Technologies )

Xun Wang
Xintong Han
Weiling Huang
Dengke Dong
Matthew R. Scott

概要¶

\(\alpha, \beta\) : スケーリングパラメータ(ハイパーパラメータ)

\begin{align} L_{MS} (\mathcal{X}) &:= \cfrac{1}{|\mathcal{X}|} \left\{ \cfrac{1}{\alpha} \log \left(1+ \sum_{x_k \in \mathcal{X}_{x_i}^+} \exp(-\alpha (s(x_i, x_k) - m)) \right) + \cfrac{1}{\beta} \log \left(1+ \sum_{x_k \in \mathcal{X}_{x_i}^-} \exp(\beta (s(x_i, x_k) - m)) \right) \right\} \end{align}

著者らの主張

relative similaritiesの性質は3つある ( \(w_{ij} := \partial L / \partial s(x_i, x_j)\) とする )
- Simirarity-S
  - \(y_i \neq y_j\) で Sij (iとjの類似度)が大きくなった時, \(w_{ij}\) は大きなるべき
- Simirarity-P
  - \(y_k = y_i \neq y_j\) で Sij < Sik のときより Sij > Sik のときのほうが \(w_{ij}\) 相対的に大きなるべき
- Simirarity-N
  - \(y_k \neq y_i \neq y_j\) で Sij < Sik のときより Sij > Sik のときのほうが \(w_{ij}\) は相対的に大きなるべき

Metric learningのロスたちはそれらの性質を持っているのか?

Multi Similarty lossについて

\begin{align} w^{-}_{ij} = \frac{1}{\exp(\beta(m - s(x_i, x_j)) + \sum_{x_k \in \mathcal{X}_{x_i}^- } \exp(\beta(s(x_i, x_k) - s(x_i, x_j))) } = \frac{\exp(\beta(m - s(x_i, x_j))}{1 + \sum_{x_k \in \mathcal{X}_{x_i}^- } \exp(\beta(s(x_i, x_j) - s(x_i, x_k))) } \end{align}

\(w^{-}_{ij}\) はnegativeのほうの項をSijで微分したっぽい、論文中には定義はない
これで、Similarity-S, Simirality-Nは満たしていると言っている
Similarity-Pの方はどうなのか \(w^{+}_{ij}\) をみてもだめっぽい

\begin{align} w^{-}_{ij} = \frac{1}{\exp(-\alpha(m - s(x_i, x_j)) + \sum_{x_k \in \mathcal{X}_{x_i}^- } \exp(-\alpha(s(x_i, x_k) - s(x_i, x_j))) } \end{align}

Pair-miningをSimiratity-Pに基づいて行うからOKだと言っている
- negative pairは、 \(S^{-}_{ij} > \min_{y_i = y_k} S_{ik} - \epsilon\) を満たすペアを学習に使う
- positivef pairは \(S^{+}_{ij} < \max_{y_i \neq y_k} S_{ik} + \epsilon\) を満たすペアを学習に使う