私たちはコンピュータが人間の言葉の意味を理解し、情報の抽出・翻訳・要約・分類などを自動的に行う技術の研究をしています。特に高精度な言語解析を実現するための機械学習技術や大規模な意味・概念データベースを構築する方法について研究しています。
インターネットの発展に伴い、ブログやSNSなど様々なプロフィールの人が書いた様々な質・観点のテキストデータが身の回りにあふれており、評判分析や情報検索など、これらのテキストの内容を分析してビジネスやサービスに活用したいというニーズが高まっています。
また社会のグローバル化に伴い、様々な分野において外国語で書かれた最新の情報を入手したり、外国語教育に用いたり、外国の方と言葉の壁を越えてコミュニケーションするための手段として機械翻訳への期待が高まっています。
しかし、インターネットに多い口語的なくだけた文章や人間同士のコミュニケーションで実際に使われる話し言葉は、単語や文法の誤りを含み、文脈から分かる内容は省略されてしまうので、表層的な文字列処理により、ことばの意味をコンピュータで正確に分析することは困難です。
そこで、言語表現や実世界の事物・事象に関する知識を大規模テキストから構築したり、様々な知識を有効に活用する機械学習法を考案することにより、ことばの意味の理解を必要とするアプリケーションのための高精度な言語解析技術を実現しています。
「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な正解データから自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、述語に対する主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定することができます。この技術を使えば、行為や状況の分析に基づく評判分析や情報検索が可能になります。
高度な言語解析に必要な様々な言語データベースを独自に構築し、研究に活用しています。それらの一部は「日本語語彙大系」、「日本語の語彙特性」、「基本語データベース」などの書籍として出版しています。