話し言葉以外の様々な音に対して、その音がどんな音なのかを説明するテキストを生成する研究です。
基本的な仕組みは、エンコーダ・デコーダ型のニューラルネットワークです。音の信号を「音エンコーダ」により低次元の特徴に変換し、これを元に言語生成器(言語デコーダ)により文章を生成します。
私たちは、音響信号からの説明文生成の課題に最も早くから取り組んでいる研究チームの一つです。
国際会議 DCASE 2019 において Best Paper Award を受賞 [1]、また、同会議の国際コンペティション「DCASE2020チャレンジ」の「説明文生成部門」にて世界一位を獲得しました。[2, 3]
さらに、生成した文章を効果的に動画中に表示する方法についても研究しています。[4]。
この技術は、心音からの説明文生成にも適用できます。[5]
生体音の取得はスマホや簡易なデバイスを用いて日常生活の中でも行えると考えられますが、取得した音の意味の理解は、現在のところ経験を積んだ医療者によらなければなりません。このが進展すれば、このギャップが埋まり、必要な場合に早期に医療機関の受診を自動的に勧奨することなども可能になると考えられます。
柏野 邦夫 (Kunio Kashino)
コミュニケーション科学基礎研究所 メディア情報研究部 生体情報処理研究グループ