[Japanese|English]
近年、画像生成AIの発展はめざましく、人の目でも見分けがつかないほどリアルな画像を生み出せるようになりつつあります。こうした発展は、深層学習の進展によってもたらされたものですが、一般的な深層学習モデルはブラックボックス化されたニューラルネットワークで構成されており、必ずしも光学的・物理的に自然な画像を生成できるとは限りません。
そこで近年注目されているのが、光学や物理の原理を取り入れた新しい深層学習モデルです。私たちは、このような背景のもと、「光学・物理原理に基づく画像生成AI」の研究に取り組んでいます。

【研究1:少視点動画からの物体の幾何形状・物理特性の高精度推定】
多視点の動画から物体の幾何形状や物理特性を推定する「システム同定」と呼ばれるタスクがありますが、これを高精度に解くためには多数のカメラが必要です。しかし、多数のカメラを用意することはコストや設置の面で大きな負担になります。そこで本研究では、「Lagrangian Particle Optimization(ラグランジュ粒子最適化)」と呼ばれる新しい最適化手法を提案しました。この手法は、カメラの数が限られているなどデータが少ない状況でも、物体の幾何形状や物理特性を高精度に推定できる点が特徴です。
【研究2:衝突からの構造復元】
近年のニューラル3D表現の進歩により、多視点画像から三次元形状を高精度に推定できるようになってきました。しかし、これらの技術は物体の表面の形状を推定することが主であり、直接見ることができない物体の内部構造を推定することはまだ難しい課題です。そこで本研究では、「Structure from Collision」と呼ばれる新たなタスクを提唱しました。具体的には、SfC-NeRFと呼ぶ新たなモデルを用い、物体が衝突するときに起こる見た目の変化を手がかりとして、物体の外側だけではなく内部の構造も推定することを可能にしました。
提案技術により、動画から物体の外観形状だけでなく、物理特性や内部構造までも把握できるようになります。これにより、高精度な形状変化の予測が可能となり、ロボットによる物体操作やコンピュータによる外界とのインタラクションの精度と信頼性の向上が期待されます。
金子 卓弘 (Takuhiro Kaneko)
コミュニケーション科学基礎研究所 メディア情報研究部 メディア認識研究グループ