マルチモーダル理解・生成技術

「ことば」と世界とを結びつける

人が文書やWebページを読むように、さらには目に映る世界に含まれる言語を理解できるようにするため「Vision-and-Language」と呼ばれる視覚と言語の融合理解に挑戦しています。「視覚的機械読解技術」では、私たちが普段扱っているPDF文書やプレゼンテーションスライドに含まれる文字の大きさや色、図や表、グラフ、レイアウトの情報など様々な視覚的要素を含めた言語の理解を目指しています。研究用のデータセットを開発・公開したり、コンペティションで上位入賞を果たすなど、国際的にこの分野をリードしています。視覚の他にも様々なモーダルの情報と言語とを結びつけることで、人を取り巻く世界を深く理解する技術を実現します。

アクティビティ紹介

2023年5月12日　第13回 Language and Robotics 研究会にて、西田京介上席特別研究員と、壹岐太一研究員が招待講演を行いました。発表タイトル「Collaborative AI: 視覚・言語・行動の融合」