Index
Phrase Grounding
文章中のフレーズ・単語が、画像中のどの領域に対応するかを推定するマルチモーダルのタスク.
- マルチモーダル #まとめ編
- Vision-Language
- yhayato1320.hatenablog.com
アルゴリズム
ViLD / 2021
MDETR / 2021
GLIP / 2021
GLIP v2 / 2022
Grounding DINO / 2023
- Grounding DINO
文章中のフレーズ・単語が、画像中のどの領域に対応するかを推定するマルチモーダルのタスク.
Transormer を利用した、時系列の予測モデル.
いくつかの工夫をしている.
Transormer を利用した、時系列の予測モデル.
いくつかの工夫をしている.
SegMoE は、テキストなどのプロンプトから画像を生成する.
高い効率性: 複数のモデルを混合することで、処理速度を大幅に向上
高い柔軟性: 様々な種類の画像を生成
高い拡張性: 新しいモデルを簡単に追加することができる
SegMoEは以下の3つの主要なコンポーネントで構成されている.
SegMoE: Segmind Mixture of Diffusion Experts
SegMoE: Segmind Mixture of Diffusion Experts の概要
「High Speed and High Dynamic Range Video with an Event Camera」の論文で作成されたデータセット.
データセットは、チューリッヒを走行する車のフロントガラスに設置された VGA (640x480) イベント カメラ (Samsung DVS Gen3) と従来の RGB カメラ (Huawei P20 Pro) で記録された多数のシーケンスで構成されている.
期待値、分散によって確率分布の様子はある程度わかるが、
位置とばらつきだけで確率分布の形がひととおりに決まるわけではない.
例えば、非対称ならばどちらへ歪んでいるかを表さなければならない.
確率分布の形が、つりがね型か、それより尖った尖塔型か、平型かをも知る必要がある.
確率分布の形状を知るための指標はいくつもある.
劣度 / Kurtosis は、そのうちの一つで、尖りの程度を表す指標である.