コンテンツにスキップ

読んだ論文まとめ(随時更新)

距離学習

  1. SoftTriple Loss: Deep Metric Learning Without Triplet Sampling
    • Classifcationとmetric learningを一つのロスで行う手法の提案。Triplet lossをスムージングしていくと cross entropyになることが証明された(本質的には同じだったらしい)
  2. Visual Explanation for Deep Metric Learning
    • 距離学習モデルの可視化
  3. Embedding Expansion: Augmentation in Embedding Space for Deep Metric Learning
    • マイニングにいくつかシンプルなルールベースの最適化を行うことでどの距離損失関数に対しても精度向上が確認された
  4. Moving in the Right Direction: A Regularization for Deep Metric Learning
    • 深層距離学習の正則化手法の比較、triplet lossの危険性について書いてあった
  5. Deep Metric Learning via Adaptive Learnable Assessment
    • マイニングのルールを学習ベースに置き換えエピソードベースの学習スキームを採用した

動画タスク

  1. Spatiotemporal Contrastive Video Representation Learning
    • SimCLRを動画分類タスクに適用した、導入したい。
  2. Predicting Video with VQVAE
    • kinetics600で65%、teacher_forcing likeな方法が取れる
  3. Is Space-Time Attention All You Need for Video Understanding?
    • Transformerによる動画分類器、色々新しい。
  4. VideoMix: Rethinking Data Augmentation for Video Classification
    • VideoMixという動画行動認識のための新しいDAを提案、T-VideoMixという手法が導入できそう。
  5. TSM: Temporal Shift Module for Efficient Video Understanding
    • 3DCNN重すぎ問題をTSMというモジュールを2DCNNに挿入することで代用した、TSMはパラメータ0なので2DCNNのcomplexityのままらしい。

未来予想

  1. Improved Conditional VRNNs for Video Prediction
  2. Variational Recurrent Autoencoder で動画の未知のフレームを予測する。典型的なRAEで非常にシンプル、生成するならこれでしょ。
  3. Video Prediction via Example Guidance
    • 読み終わってない、動画未来予測で初のマルチモーダルモデル
  4. Predictive Learning: Using Future Representation Learning Variantial Autoencoder for Human Action Prediction
    • RGBとOptical Flowの2ストリーム

学習手法

  1. Invariant Information Clustering for Unsupervised Image Classification and Segmentation
    • 教師無し+予測値を直出力できるモデルの学習方法、ノイズに強い
  2. Supervised Contrastive Learning
    • SimCLRベースで教師有学習を行う
  3. Unsupervised Learning of Visual Features by Contrasting Cluster Assignments
    • SwAV
  4. A Simple Framework for Contrastive Learning of Visual Representations
    • SimCLR
  5. AutoAugment: Learning Augmentation Policies from Data
    • 学習ベースでDAを行う
  6. What Makes Training Multi-modal Classification Networks Hard?

その他

  1. Revisiting ResNets: Improved Training and Scaling Strategies
    • ResNetの学習とスケーリング方法
  2. An annotation-free whole-slide training approach to pathological classification of lung cancer types using deep learning
    • ユニファイドメモリ(UM)メカニズムといくつかのGPUメモリ最適化手法で画像の縮小を回避する
  3. Prototypical Contrastive Learning of Unsupervised Representations
    • EMアルゴリズムベースのクラスタリング、クラスターが収束しずらくなる様に距離関数を変更していき過学習を抑制する