#まとめ編一覧
- yhayato1320.hatenablog.com

Index

Index
画像処理のタスク
3D
- Depth Estimation
- 新規視点画像生成 / Neural Rendering
  - Novel View Synthesis
    - stylescene / 2021
マルチモーダルタスク
- Vision Language
  - 画像キャプション / Image Caption
参考
- 書籍

画像処理のタスク

画像処理におけるタスクをまとめる.

画像処理分野一覧 #まとめ編
- yhayato1320.hatenablog.com
タスク一覧 #まとめ編
- yhayato1320.hatenablog.com

特徴領域の検出

Edge Detection

Edge Detection
- yhayato1320.hatenablog.com

Line Detection

Line Detection
- yhayato1320.hatenablog.com

Contours / Rect / Box Detection

Contours / Rect / Box Detection
- yhayato1320.hatenablog.com

画像認識 / Image Recognition

画像認識 / Image Recognition とは、画像に写る内容を理解することである.

画像認識で扱うトピックは多岐にわたり、認識する目的に応じて細分化されている.

様々な分類方法があるが、画像からシンボルに変換する画像認識を考えると、 物体認識 / Object Recognition とシーン認識 / Scene Recognitionに分類できる.

物体認識 / Object Recognition

物体認識とは、入力画像に写る物体を理解し、適切なラベルを付与する過程を指す.

物体認識 / Object Recognition #まとめ編
- yhayato1320.hatenablog.com

シーン認識 / Scene Recognition

一方、シーンは、実世界の環境であり、複数の物体などが存在し、なんらかの意味をなす状況を表現したものと捉える.

つまり、シーン認識とは、画像が表現する包括的な情報を理解する過程のこと.

Face Recognition / 顔認識

Face Recognition / 顔認識
- yhayato1320.hatenablog.com

物体検出 / Object Detection

画像から物体のクラスを予測するだけでなく、物体が存在する領域まで、推定することを物体検出 / Object Detectionという.

物体検出は、対象物体を囲む四角い領域 (Bounding Box)を推定する.

物体検出 / Object Detection #まとめ編
- yhayato1320.hatenablog.com

Human Detection

特定の物体の中でも、人間の検出に焦点を当てたタスク.

Human Detection
- yhayato1320.hatenablog.com

Person Re-Identification

異なるカメラ、もしくは同じカメラで異なる機会に撮影された同一人物に関する再識別 / 再特定をするタスク.

Person Re-Identification
- yhayato1320.hatenablog.com

Person Search

複数のシーンの画像の中から特定の人間を検出するタスク.

Human (Person) Detection + Person Re-Identification

Person Search
- yhayato1320.hatenablog.com

Keypoint Detection

ある特定の物体 (主に人間) を検出し、 (主に人間の人体に関する) 部分的な位置を特定するタスク.

Pose Estimation と同様に扱われることが多い.

Keypoint Detection / Pose Estimation
- yhayato1320.hatenablog.com

Pose Estimation

ある特定の物体 (主に人間) を検出し、特定の物体 (主に人間) を構成する Keypoint の情報を推定し、物体の向きなどを推定することが目的.

日本語では、姿勢推定.

Face Detection

Face Detection
- yhayato1320.hatenablog.com

Lane Detection

道路のエリアの検出.

paper with code のタスクのページ
- paperswithcode.com

Salient Object Detection / SOD

Salient Object Detection / SOD
- yhayato1320.hatenablog.com

Counting

Crowd Counting

paperswithcode.com
- paper with code のタスクのページ

Cross-View Cross-Scene / CVCS

複数のカメラ映像を統合して群衆の人数をカウントするマルチビュー群衆計数において、未知のシーンやカメラ配置にも対応可能なCVCS (Cross-View Cross-Scene) モデルを提案. 従来の技術は学習時と同じ特定の場所でしか機能しませんでしたが、本研究ではカメラの幾何学的距離を利用した適応的な特徴融合と、配置変更に強いノイズ注入手法を導入. 実環境での大規模なデータ収集と注釈付けの困難を解消するため、著者らは約100のカメラ視点を含む大規模な合成データセットを独自に構築して学習に活用. この合成データで訓練されたモデルに教師なしドメイン適応を組み合わせることで、実世界の異なる場面においても、従来の教師あり学習手法に匹敵する高い汎用性能を実現. これは、マルチビュー群衆計数における交差シーン・交差視点の課題に本格的に取り組んだ初の研究.

Cross-View Cross-Scene Multi-View Crowd Counting

https://t.co/iK6WdFjUpr
多様な複数カメラの配置による群衆数え上げタスク(CVCS)を提案。また、このような問題設定はアノテーションが非常に高コストであることから、合成データを用いたCVCSデータセットを提案した。教師なしドメイン適応でFine-Tuneすることにより、実世界のデータでも適用 pic.twitter.com/fGeA73FIKo
— akira (@AkiraTOSEI) August 13, 2021

セグメンテーション / Segmentation

物体検出は、対象物体を囲む四角い領域を推定するのがタスクであるが、
物体のと背景との切り分けて認識するタスクをセグメンテーション / Segmentationという.

Segmentation
- yhayato1320.hatenablog.com

Congealing

Neural Congealing: Aligning Images to a Joint Semantic Atlas
- [2023]
- arxiv.org

画像生成 / Image Generation / Image to Image Transfer / I2I

画像生成
- yhayato1320.hatenablog.com

アルゴリズム

Laplacian Pyramid Translation Network / LPTN / 2021

4K解像度の画像をリアルタイムで処理可能な、高精度な画像変換技術「LPTN」を提案. 従来の画像変換手法は計算負荷が非常に高く、高解像度画像の処理には膨大な時間が必要だった. ラプラシアンピラミッドを活用し、画像を照明や色などの低周波成分と、細部を描く高周波成分に分離して処理する手法を確立. 低周波成分には軽量なネットワークを適用し、高周波成分には効率的なマスキング戦略を用いることで、画質を損なうことなく劇的な高速化を実現. 実験の結果、本手法はディテールの歪みを抑えつつ、既存のモデルを大きく上回る推論速度と処理効率を証明した.

High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network
- 2021
- arxiv.org

High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network
pdf: https://t.co/VcTs6HbIzd
abs: https://t.co/sbXrdixFot
github: https://t.co/cc3c0wQ3up pic.twitter.com/gcLUdbzcn4
— AK (@_akhaliq) May 20, 2021

異常検知 / Image Anomaly Detection

異常検知 / Image Anomaly Detection
- yhayato1320.hatenablog.com

Scene Graph Generation / SGG

Panoptic Scene Graph Generation / PSG

Panoptic Scene Graph Generation / PSG
- yhayato1320.hatenablog.com

Image Retrieval

Image Retrieval
- yhayato1320.hatenablog.com

Image Compression / 画像圧縮

Neural Image Compression

EVC / 2023

EVC: Towards Real-Time Neural Image Compression with Mask Decay
- [2023]
- arxiv.org

Affordance Grounding

画像内のどの部分が、何のアクションを行なっているかを理解する.

LOCATE / 2023

LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding
- [2023]
- arxiv.org
- reagan1311.github.io

Local Feature Matching / LFM

論文まとめ: Local Feature Matching Using Deep Learning: A Survey(202401)
- qiita.com

Amodal Completion

Amodal Completion
- yhayato1320.hatenablog.com

3D

Depth Estimation

Depth Estimation
- yhayato1320.hatenablog.com

新規視点画像生成 / Neural Rendering

新規視点画像生成 / Neural Rendering
- yhayato1320.hatenablog.com

Novel View Synthesis

paper with code
- paperswithcode.com

stylescene / 2021

3Dシーンのスタイライゼーションという新しい課題に焦点を当てている. 既存の画像スタイライゼーションや動画スタイライゼーション手法を単純に適用した場合、生成される新しい視点からの画像が不鮮明になったり、異なる視点間で矛盾が生じるという課題があった. これを解決するため、本研究はシーン全体を点群として表現し、この3D表現にスタイルを適用することで、望ましいスタイルを持ちつつ視点間での一貫性が保たれた新しい視点画像を合成する点群ベースの手法を提案.

Learning to Stylize Novel Views
- [2021]
- arxiv.org
- hhsinping.github.io
- github.com

マルチモーダルタスク

Vision Language

Vision Language
- yhayato1320.hatenablog.com

画像キャプション / Image Caption

画像から物体間の関係性を表現するのが、画像キャプション / Image Caption

Image Caption
- yhayato1320.hatenablog.com

参考

Multi-Task Learning with Deep Neural Networks: A Survey
- [2020]
- arxiv.org

書籍

画像認識
- 1 画像認識の概要
  - 1.2 画像認識の分類
- 画像認識 (機械学習プロフェッショナルシリーズ)
  - 作者:原田達也
  - 講談社
  Amazon