マルチモーダル理解・生成技術

「ことば」と世界とを結びつける

人が文書やWebページを読むように、さらには目に映る世界に含まれる言語を理解できるようにするため「Vision-and-Language」と呼ばれる視覚と言語の融合理解に挑戦しています。「視覚的機械読解技術」では、私たちが普段扱っているPDF文書やプレゼンテーションスライドに含まれる文字の大きさや色、図や表、グラフ、レイアウトの情報など様々な視覚的要素を含めた言語の理解を目指しています。研究用のデータセットを開発・公開したり、コンペティションで上位入賞を果たすなど、国際的にこの分野をリードしています。視覚の他にも様々なモーダルの情報と言語とを結びつけることで、人を取り巻く世界を深く理解する技術を実現します。

アクティビティ紹介