オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【画像処理】タスク一覧 #まとめ編

Index

画像処理のタスク

画像処理におけるタスクをまとめる.

特徴領域の検出

Edge Detection

Line Detection

Contours / Rect / Box Detection

画像認識 / Image Recognition

画像認識 / Image Recognition とは、画像に写る内容を理解することである.

画像認識で扱うトピックは多岐にわたり、認識する目的に応じて細分化されている.

様々な分類方法があるが、
画像からシンボルに変換する画像認識を考えると、
物体認識 / Object Recognitionシーン認識 / Scene Recognitionに分類できる.

物体認識 / Object Recognition

物体認識とは、入力画像に写る物体を理解し、適切なラベルを付与する過程を指す.

シーン認識 / Scene Recognition

一方、シーンは、実世界の環境であり、複数の物体などが存在し、なんらかの意味をなす状況を表現したものと捉える.

つまり、シーン認識とは、画像が表現する包括的な情報を理解する過程のこと.

物体検出 / Object Detection

画像から物体のクラスを予測するだけでなく、物体が存在する領域まで、
推定することを物体検出 / Object Detectionという.

物体検出は、対象物体を囲む四角い領域 (Bounding Box)を推定する.

Human Detection

特定の物体の中でも、人間の検出に焦点を当てたタスク.

Person Re-Identification

異なるカメラ、もしくは同じカメラで異なる機会に撮影された 同一人物に関する再識別 / 再特定をするタスク.



複数のシーンの画像の中から特定の人間を検出するタスク.

Human (Person) Detection + Person Re-Identification

Keypoint Detection

ある特定の物体 (主に人間) を検出し、 (主に人間の人体に関する) 部分的な位置を特定するタスク.

Pose Estimation と同様に扱われることが多い.

Pose Estimation

ある特定の物体 (主に人間) を検出し、 特定の物体 (主に人間) を構成する Keypoint の情報を推定し、物体の向きなどを推定することが目的.

日本語では、姿勢推定.

Face Detection

Lane Detection

道路のエリアの検出.

Counting

Crowd Counting

セグメンテーション / Segmentation

物体検出は、対象物体を囲む四角い領域を推定するのがタスクであるが、
物体のと背景との切り分けて認識するタスクをセグメンテーション / Segmentationという.

Congealing

  • Neural Congealing: Aligning Images to a Joint Semantic Atlas

画像生成 / Image Generation

スタイル変換 / Style Transfer

Image Restoration / Super Resolution / 画像補間

異常検知 / Image Anomaly Detection

Scene Graph Generation / SGG

Panoptic Scene Graph Generation / PSG

Image Retrieval

Image Compression / 画像圧縮

Neural Image Compression

EVC / 2023

  • EVC: Towards Real-Time Neural Image Compression with Mask Decay

Affordance Grounding

画像内のどの部分が、何のアクションを行なっているかを理解する.

LOCATE / 2023

3D

Depth Estimation

新規視点画像生成 / Neural Rendering

マルチモーダルタスク

Vision Language

画像キャプション / Image Caption

画像から物体間の関係性を表現するのが、画像キャプション / Image Caption

参考

  • Multi-Task Learning with Deep Neural Networks: A Survey

書籍