オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【画像処理】タスク一覧 #まとめ編

Index

画像処理のタスク

画像処理におけるタスクをまとめる.

特徴領域の検出

Edge Detection

Line Detection

Contours / Rect / Box Detection

画像認識 / Image Recognition

画像認識 / Image Recognition とは、画像に写る内容を理解することである.

画像認識で扱うトピックは多岐にわたり、認識する目的に応じて細分化されている.

様々な分類方法があるが、 画像からシンボルに変換する画像認識を考えると、 物体認識 / Object Recognitionシーン認識 / Scene Recognitionに分類できる.

物体認識 / Object Recognition

物体認識とは、入力画像に写る物体を理解し、適切なラベルを付与する過程を指す.

シーン認識 / Scene Recognition

一方、シーンは、実世界の環境であり、複数の物体などが存在し、なんらかの意味をなす状況を表現したものと捉える.

つまり、シーン認識とは、画像が表現する包括的な情報を理解する過程のこと.

Face Recognition / 顔認識

物体検出 / Object Detection

画像から物体のクラスを予測するだけでなく、物体が存在する領域まで、 推定することを物体検出 / Object Detectionという.

物体検出は、対象物体を囲む四角い領域 (Bounding Box)を推定する.

Human Detection

特定の物体の中でも、人間の検出に焦点を当てたタスク.

Person Re-Identification

異なるカメラ、もしくは同じカメラで異なる機会に撮影された 同一人物に関する再識別 / 再特定をするタスク.



複数のシーンの画像の中から特定の人間を検出するタスク.

Human (Person) Detection + Person Re-Identification

Keypoint Detection

ある特定の物体 (主に人間) を検出し、 (主に人間の人体に関する) 部分的な位置を特定するタスク.

Pose Estimation と同様に扱われることが多い.

Pose Estimation

ある特定の物体 (主に人間) を検出し、 特定の物体 (主に人間) を構成する Keypoint の情報を推定し、物体の向きなどを推定することが目的.

日本語では、姿勢推定.

Face Detection

Lane Detection

道路のエリアの検出.

Salient Object Detection / SOD

Counting

Crowd Counting

Cross-View Cross-Scene / CVCS

複数のカメラ映像を統合して群衆の人数をカウントするマルチビュー群衆計数において、未知のシーンやカメラ配置にも対応可能なCVCS (Cross-View Cross-Scene) モデルを提案. 従来の技術は学習時と同じ特定の場所でしか機能しませんでしたが、本研究ではカメラの幾何学的距離を利用した適応的な特徴融合と、配置変更に強いノイズ注入手法を導入. 実環境での大規模なデータ収集と注釈付けの困難を解消するため、著者らは約100のカメラ視点を含む大規模な合成データセットを独自に構築して学習に活用. この合成データで訓練されたモデルに教師なしドメイン適応を組み合わせることで、実世界の異なる場面においても、従来の教師あり学習手法に匹敵する高い汎用性能を実現. これは、マルチビュー群衆計数における交差シーン・交差視点の課題に本格的に取り組んだ初の研究.

セグメンテーション / Segmentation

物体検出は、対象物体を囲む四角い領域を推定するのがタスクであるが、
物体のと背景との切り分けて認識するタスクをセグメンテーション / Segmentationという.

Congealing

  • Neural Congealing: Aligning Images to a Joint Semantic Atlas

画像生成 / Image Generation / Image to Image Transfer / I2I

アルゴリズム

Laplacian Pyramid Translation Network / LPTN / 2021

4K解像度の画像をリアルタイムで処理可能な、高精度な画像変換技術「LPTN」を提案. 従来の画像変換手法は計算負荷が非常に高く、高解像度画像の処理には膨大な時間が必要だった. ラプラシアンピラミッドを活用し、画像を照明や色などの低周波成分と、細部を描く高周波成分に分離して処理する手法を確立. 低周波成分には軽量なネットワークを適用し、高周波成分には効率的なマスキング戦略を用いることで、画質を損なうことなく劇的な高速化を実現. 実験の結果、本手法はディテールの歪みを抑えつつ、既存のモデルを大きく上回る推論速度と処理効率を証明した.

  • High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network

関連タスク

スタイル変換 / Style Transfer

Image Restoration / Super Resolution / 画像補間 / 超解像度

異常検知 / Image Anomaly Detection

Scene Graph Generation / SGG

Panoptic Scene Graph Generation / PSG

Image Retrieval

Image Compression / 画像圧縮

Neural Image Compression

EVC / 2023

  • EVC: Towards Real-Time Neural Image Compression with Mask Decay

Affordance Grounding

画像内のどの部分が、何のアクションを行なっているかを理解する.

LOCATE / 2023

Local Feature Matching / LFM

  • 論文まとめ: Local Feature Matching Using Deep Learning: A Survey(202401)

Amodal Completion

3D

Depth Estimation

新規視点画像生成 / Neural Rendering

Novel View Synthesis

stylescene / 2021

3Dシーンのスタイライゼーションという新しい課題に焦点を当てている. 既存の画像スタイライゼーションや動画スタイライゼーション手法を単純に適用した場合、生成される新しい視点からの画像が不鮮明になったり、異なる視点間で矛盾が生じるという課題があった. これを解決するため、本研究はシーン全体を点群として表現し、この3D表現にスタイルを適用することで、望ましいスタイルを持ちつつ視点間での一貫性が保たれた新しい視点画像を合成する点群ベースの手法を提案.

マルチモーダルタスク

Vision Language

画像キャプション / Image Caption

画像から物体間の関係性を表現するのが、画像キャプション / Image Caption

参考

  • Multi-Task Learning with Deep Neural Networks: A Survey

書籍