オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Phrase Grounding

Index

Phrase Grounding

文章中のフレーズ・単語が、画像中のどの領域に対応するかを推定するマルチモーダルのタスク.

アルゴリズム

ViLD / 2021

MDETR / 2021

GLIP / 2021

GLIP v2 / 2022

  • GLIPv2: Unifying Localization and Vision-Language Understanding

Grounding DINO / 2023

参考

【深層学習】Scaleformer

Index

Crossformer

Transormer を利用した、時系列の予測モデル.

いくつかの工夫をしている.

  • Multi Scale Framework
  • Cross-Scale Normalization

参考

  • Scaleformer: Iterative Multi-scale Refining Transformers for Time Series Forecasting
    • [2022]
    • Abstract
    • 3 METHOD
      • 3.2 MULTI-SCALE FRAMEWORK
      • 3.3 CROSS-SCALE NORMALIZATION
    • arxiv.org

【深層学習】Crossformer

Index

Crossformer

Transormer を利用した、時系列の予測モデル.

いくつかの工夫をしている.

  • Dimension Segment Wise (DSW) Embedding
  • Two-Stage Attention (TSA)
    • Cross-Time Stage
    • Cross-Dimension Stage
  • Hierarchical Encoder-Decoder (HED)

参考

  • Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting
    • [2023]
    • Abstract
    • 3 METHODOLOGY
      • 3.1 DIMENSION-SEGMENT-WISE EMBEDDING
      • 3.2 TWO-STAGE ATTENTION LAYER
        • Cross-Time Stage
        • Cross-Dimension Stage
      • 3.3 HIERARCHICAL ENCODER-DECODE
    • openreview.net

【深層学習】SegMoE

Index

SegMoE

SegMoE は、テキストなどのプロンプトから画像を生成する.

特徴

  1. 高い効率性: 複数のモデルを混合することで、処理速度を大幅に向上

  2. 高い柔軟性: 様々な種類の画像を生成

  3. 高い拡張性: 新しいモデルを簡単に追加することができる

アーキテクチャ

SegMoEは以下の3つの主要なコンポーネントで構成されている.

  • Experts Model : 複数の異なるモデルで構成されてる
  • router: 各トークンがどのエキスパートモデルによって処理されるかを決定する
  • 混合器?: 各エキスパートモデルの出力を統合

参考

  • SegMoE: Segmind Mixture of Diffusion Experts

  • SegMoE: Segmind Mixture of Diffusion Experts の概要

【データセット】Driving Event Camera Dataset (Samsung DVS Gen3)

Driving Event Camera Dataset (Samsung DVS Gen3)

「High Speed and High Dynamic Range Video with an Event Camera」の論文で作成されたデータセット.

データセットは、チューリッヒを走行する車のフロントガラスに設置された VGA (640x480) イベント カメラ (Samsung DVS Gen3) と従来の RGB カメラ (Huawei P20 Pro) で記録された多数のシーケンスで構成されている.



参考

【深層学習】Hyena

Index

Hyena

【統計学】劣度 / Kurtosis

Index

劣度 / Kurtosis

期待値、分散によって確率分布の様子はある程度わかるが、 位置とばらつきだけで確率分布の形がひととおりに決まるわけではない.

例えば、非対称ならばどちらへ歪んでいるかを表さなければならない.

確率分布の形が、つりがね型か、それより尖った尖塔型か、平型かをも知る必要がある.

確率分布の形状を知るための指標はいくつもある.

劣度 / Kurtosis は、そのうちの一つで、尖りの程度を表す指標である.

定義

劣度 / Kurtosis の定義

 \alpha_{4}\ =\ \displaystyle \frac{E[X\ -\ \mu]^{4}}{\sigma^{4}}



これは、中心の周囲の部分の尖り具合を表す.

正規分布 \alpha_{4}\ =\ 3 と比較して、  \alpha_{4}\ -\ 3 を指標として利用する.



これを  X の劣度 / Kurtosis (超過係数) と呼ぶ.



 \alpha_{4}\ -\ 3\ >\ 0 ならば正規分布よりも尖っており、  \alpha_{4}\ -\ 3\ >\ 0 ならば正規分布よりも丸く鈍い形をしている.

参考