360度映像をHMD等で楽しむといった没入感の高い映像空間を体験するユースケースが増えてきています。この際、視線の移動に対応する空間的な音響信号を提示するためには、4チャンネル以上のマイクアレイを使った空間音響の収音が必要となり、特殊な機材が必要となることが障壁となっていました。
モノラル音響信号から360度映像を活用することで空間音響(アンビソニックスと呼ばれるフォーマットの4チャンネルの音響信号)を復元し、さらに、オブジェクトが空間中にスパースに存在することを利用し、音源分離の分解能を向上する技術を研究しています。
アンビソニックスや波面合成として知られる音響再生技術では、球面や直線といった境界面上に密にスピーカを配置することで、境界面に囲まれたエリア内部の空間的な音圧分布を再現します。この特徴に着目し、360度映像とモノラル音声を入力として、アンビソニックス係数を出力する多層ニューラルネットを構築する。これにより、個別の音源の位置や方向、残響条件などを個別に把握するのではなく、空間に設定したN個のスピーカの出力を推定することで3D音響空間を再現します。

左:現画像、中央:正解画像、右:提案技術
現状、少数のデータを使った検証にとどまっており、より大規模なデータセットを用いた定量的な評価等に取り組んでいきます。また、3D音響空間生成・再現を導入した超高臨場メタバースの実現に取り組んでいきます。
ライブ配信イベントを自宅で視聴する機会が増えており、オンラインならではの娯楽のニーズが高まっています。これまで、自宅からオンラインで参加して応援するような場合、観客からの応答にはズレ・バラつきが存在し、また、オンライン環境側の不要な情報が会場側で提示され、リアル会場とオンライン観客とが調和した形での鑑賞・応援は実現はできてませんでした。
クロスモーダル音検索技術をベースに、観客が応援する映像(ペンライトを振る様子)から盛り上がり尤度を推定し、対応する歓声音を検索・再生する技術を開発しました。この際、観客が応援する映像と歓声音をペアにした学習データを準備し、映像から音を推定するモデルを学習しておきます。
また、手拍子やペンライトを振る観客の映像から協調動作に関わる特徴を抽出し、その特徴同士を照合することで、複数のリモート観客映像間の遅延時間を推定し、時間的なズレを補正して同期した映像を生成する技術を研究しています。
「第34回 マイナビ 東京ガールズコレクション 2022 SPRING/SUMMER」(2022年3月21日開催)において、コロナ禍のために完成を上げられない状況において、オンライン観客及びリアル会場観客の盛り上がりに応じた疑似歓声音を再生する実証実験を実施し、リアル会場とオンライン観客が調和し、リアル会場の演者・観客・オンライン観客とが一体となった新たな体験を実現しました。