画像からの空間認識を試しただけのやつ

論文

3D Photography using Context-aware Layered Depth Inpainting

https://arxiv.org/abs/2004.04727

Project Page

概要

CVPR2020に投稿された論文。1枚の画像からDeeplearningで空間認識を行い、位置的に映っていない領域を推定するInpaintingアルゴリズム。論文は読んでないですが、面白そうなので手持ちの画像でコードを試してみただけの記事です。

試した画像

この二枚の画像です。渋谷と三保の松原で撮影した2枚の画像でテストしました。他にもたくさん試したけど重たくなりそうなので二枚だけ載せます。

①渋谷のスクランブル交差点

②三保の松原

す、すごない…??

そのほかに試したもの

エッジ、色、深度のサブタスクに分けて学習したことが効いているらしい。エッジ生成の過程ではGANを使っていて、安定のSpectral Normalizationで正規化してるみたい。

感想

まさかここまで自然につくれるとは。これは対象物が動くものではないから、動画とは呼べないかもしれないけど今まで見てきた動画生成系の研究中でもかなりに自然に生成できていますね。結婚式の余興でよく流れるムービーの作成タスクとかPV作成とかで活躍しそうな技術だ。写真しかないって時でも画像だけで動画風に作れるから夢が広がるな。

シェアする

フォローする