- #まとめ編 一覧
Index
- Index
- 画像処理のタスク
- 特徴領域の検出
- 画像認識 / Image Recognition
- 物体検出 / Object Detection
- Counting
- セグメンテーション / Segmentation
- 画像生成 / Image Generation / Image to Image Transfer / I2I
- 異常検知 / Image Anomaly Detection
- Scene Graph Generation / SGG
- Image Retrieval
- Image Compression / 画像圧縮
- Affordance Grounding
- Local Feature Matching / LFM
- Amodal Completion
- 3D
- マルチモーダルタスク
- 参考
画像処理のタスク
画像処理におけるタスクをまとめる.
画像処理 分野一覧 #まとめ編
タスク一覧 #まとめ編
特徴領域の検出
Edge Detection
- Edge Detection
Line Detection
- Line Detection
Contours / Rect / Box Detection
- Contours / Rect / Box Detection
画像認識 / Image Recognition
画像認識 / Image Recognition とは、画像に写る内容を理解することである.
画像認識で扱うトピックは多岐にわたり、認識する目的に応じて細分化されている.
様々な分類方法があるが、
画像からシンボルに変換する画像認識を考えると、
物体認識 / Object Recognition とシーン認識 / Scene Recognitionに分類できる.
物体認識 / Object Recognition
物体認識とは、入力画像に写る物体を理解し、適切なラベルを付与する過程を指す.
- 物体認識 / Object Recognition #まとめ編
シーン認識 / Scene Recognition
一方、シーンは、実世界の環境であり、複数の物体などが存在し、なんらかの意味をなす状況を表現したものと捉える.
つまり、シーン認識とは、画像が表現する包括的な情報を理解する過程のこと.
Face Recognition / 顔認識
- Face Recognition / 顔認識
物体検出 / Object Detection
画像から物体のクラスを予測するだけでなく、物体が存在する領域まで、
推定することを物体検出 / Object Detectionという.
物体検出は、対象物体を囲む四角い領域 (Bounding Box)を推定する.
- 物体検出 / Object Detection #まとめ編
Human Detection
特定の物体の中でも、人間の検出に焦点を当てたタスク.
- Human Detection
Person Re-Identification
異なるカメラ、もしくは同じカメラで異なる機会に撮影された
同一人物に関する再識別 / 再特定をするタスク.
- Person Re-Identification
Person Search
複数のシーンの画像の中から特定の人間を検出するタスク.
Human (Person) Detection + Person Re-Identification
- Person Search
Keypoint Detection
ある特定の物体 (主に人間) を検出し、
(主に人間の人体に関する) 部分的な位置を特定するタスク.
Pose Estimation と同様に扱われることが多い.
- Keypoint Detection / Pose Estimation
Pose Estimation
ある特定の物体 (主に人間) を検出し、
特定の物体 (主に人間) を構成する Keypoint の情報を推定し、物体の向きなどを推定することが目的.
日本語では、姿勢推定.
Face Detection
- Face Detection
Lane Detection
道路のエリアの検出.
- paper with code のタスクのページ
Salient Object Detection / SOD
- Salient Object Detection / SOD
Counting
Crowd Counting
- paperswithcode.com
- paper with code のタスクのページ
Cross-View Cross-Scene / CVCS
複数のカメラ映像を統合して群衆の人数をカウントするマルチビュー群衆計数において、未知のシーンやカメラ配置にも対応可能なCVCS (Cross-View Cross-Scene) モデルを提案.
従来の技術は学習時と同じ特定の場所でしか機能しませんでしたが、本研究ではカメラの幾何学的距離を利用した適応的な特徴融合と、配置変更に強いノイズ注入手法を導入.
実環境での大規模なデータ収集と注釈付けの困難を解消するため、著者らは約100のカメラ視点を含む大規模な合成データセットを独自に構築して学習に活用.
この合成データで訓練されたモデルに教師なしドメイン適応を組み合わせることで、実世界の異なる場面においても、従来の教師あり学習手法に匹敵する高い汎用性能を実現.
これは、マルチビュー群衆計数における交差シーン・交差視点の課題に本格的に取り組んだ初の研究.
- Cross-View Cross-Scene Multi-View Crowd Counting
https://t.co/iK6WdFjUpr
— akira (@AkiraTOSEI) August 13, 2021
多様な複数カメラの配置による群衆数え上げタスク(CVCS)を提案。また、このような問題設定はアノテーションが非常に高コストであることから、合成データを用いたCVCSデータセットを提案した。教師なしドメイン適応でFine-Tuneすることにより、実世界のデータでも適用 pic.twitter.com/fGeA73FIKo
セグメンテーション / Segmentation
物体検出は、対象物体を囲む四角い領域を推定するのがタスクであるが、
物体のと背景との切り分けて認識するタスクをセグメンテーション / Segmentationという.
- Segmentation
Congealing
- Neural Congealing: Aligning Images to a Joint Semantic Atlas
- [2023]
- arxiv.org
画像生成 / Image Generation / Image to Image Transfer / I2I
アルゴリズム
Laplacian Pyramid Translation Network / LPTN / 2021
4K解像度の画像をリアルタイムで処理可能な、高精度な画像変換技術「LPTN」を提案.
従来の画像変換手法は計算負荷が非常に高く、高解像度画像の処理には膨大な時間が必要だった.
ラプラシアンピラミッドを活用し、画像を照明や色などの低周波成分と、細部を描く高周波成分に分離して処理する手法を確立.
低周波成分には軽量なネットワークを適用し、高周波成分には効率的なマスキング戦略を用いることで、画質を損なうことなく劇的な高速化を実現.
実験の結果、本手法はディテールの歪みを抑えつつ、既存のモデルを大きく上回る推論速度と処理効率を証明した.
- High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network
- 2021
- arxiv.org
High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network
— AK (@_akhaliq) May 20, 2021
pdf: https://t.co/VcTs6HbIzd
abs: https://t.co/sbXrdixFot
github: https://t.co/cc3c0wQ3up pic.twitter.com/gcLUdbzcn4
関連タスク
スタイル変換 / Style Transfer
- スタイル変換 / Style Transfer
Image Restoration / Super Resolution / 画像補間 / 超解像度
- Image Restoration / Super Resolution / 画像補間 / 超解像度
異常検知 / Image Anomaly Detection
- 異常検知 / Image Anomaly Detection
Scene Graph Generation / SGG
Panoptic Scene Graph Generation / PSG
- Panoptic Scene Graph Generation / PSG
Image Retrieval
- Image Retrieval
Image Compression / 画像圧縮
Neural Image Compression
EVC / 2023
- EVC: Towards Real-Time Neural Image Compression with Mask Decay
- [2023]
- arxiv.org
Affordance Grounding
画像内のどの部分が、何のアクションを行なっているかを理解する.
LOCATE / 2023
- LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding
- [2023]
- arxiv.org
- reagan1311.github.io
Local Feature Matching / LFM
- 論文まとめ: Local Feature Matching Using Deep Learning: A Survey(202401)
Amodal Completion
- Amodal Completion
3D
Depth Estimation
- Depth Estimation
新規視点画像生成 / Neural Rendering
- 新規視点画像生成 / Neural Rendering
Novel View Synthesis
- paper with code
stylescene / 2021
3Dシーンのスタイライゼーションという新しい課題に焦点を当てている. 既存の画像スタイライゼーションや動画スタイライゼーション手法を単純に適用した場合、生成される新しい視点からの画像が不鮮明になったり、異なる視点間で矛盾が生じるという課題があった. これを解決するため、本研究はシーン全体を点群として表現し、この3D表現にスタイルを適用することで、望ましいスタイルを持ちつつ視点間での一貫性が保たれた新しい視点画像を合成する点群ベースの手法を提案.
- Learning to Stylize Novel Views
マルチモーダルタスク
Vision Language
- Vision Language
画像キャプション / Image Caption
画像から物体間の関係性を表現するのが、画像キャプション / Image Caption
- Image Caption
参考
- Multi-Task Learning with Deep Neural Networks: A Survey
- [2020]
- arxiv.org
書籍
- 画像認識
- 1 画像認識の概要
- 1.2 画像認識の分類
- 1 画像認識の概要
