画像からの空間認識を試しただけのやつ

2020/5/4 2020/5/5 GAN, その他, 研究

論文

3D Photography using Context-aware Layered Depth Inpainting

https://arxiv.org/abs/2004.04727

概要

CVPR2020に投稿された論文。１枚の画像からDeeplearningで空間認識を行い、位置的に映っていない領域を推定するInpaintingアルゴリズム。論文は読んでないですが、面白そうなので手持ちの画像でコードを試してみただけの記事です。

試した画像

この二枚の画像です。渋谷と三保の松原で撮影した２枚の画像でテストしました。他にもたくさん試したけど重たくなりそうなので二枚だけ載せます。

①渋谷のスクランブル交差点

②三保の松原

す、すごない…？？

そのほかに試したもの

手持ち画像で試してみた。1枚画像から３次元動画つくる研究。すごすぎて漏らした。https://t.co/vQWf2Oy8fm #CVPR2020 pic.twitter.com/lMpqSvU1xE

— 円丸(えんまる) (@enmaru_) May 4, 2020

画面の中まで少し立体的になってる pic.twitter.com/SCKxLLQofT

— 円丸(えんまる) (@enmaru_) May 4, 2020

ハシカン.3ds pic.twitter.com/Hyq79YYhoM

— 円丸(えんまる) (@enmaru_) May 4, 2020

エッジ、色、深度のサブタスクに分けて学習したことが効いているらしい。エッジ生成の過程ではGANを使っていて、安定のSpectral Normalizationで正規化してるみたい。

感想

まさかここまで自然につくれるとは。これは対象物が動くものではないから、動画とは呼べないかもしれないけど今まで見てきた動画生成系の研究中でもかなりに自然に生成できていますね。結婚式の余興でよく流れるムービーの作成タスクとかPV作成とかで活躍しそうな技術だ。写真しかないって時でも画像だけで動画風に作れるから夢が広がるな。