AI

真に「考える」AIへ。NTTにおけるAI技術の研究開発について紹介します。

AIで人に迫り脳科学で人を究める -人間を深く理解し、共生する存在へ-

AIへのふたつのアプローチ

NTTでは、人に迫り、人を究め、人に寄り添うAIの実現をめざした研究に取り組んでいます。研究領域としては、「メディア処理」「データ・機械学習」など、「人間の能力に迫り凌駕する」ための技術の追求と、「人間科学」「多様脳科学」など、「人間を深く理解する」ためのサイエンスの追求というふたつのアプローチからなっています。

「人間の能力に迫り凌駕する」アプローチに関しては、たとえば、深層学習・機械学習、クロスモーダル、メディア処理、言語処理、離散最適化などの研究を通じて、人の特定の能力に迫り凌駕することをめざしています。AIは特定の能力においては人間に性能に迫り凌駕することができても、全体として複雑な存在である人間を超えるシンギュラリティまではなかなかたどり着けません。一方人間は、複雑であるがゆえに間違いを犯したり、バイアスや錯覚に支配されるなど、一見、不完全で誤りを犯す存在です。そこで「人間を深く理解する」アプローチとして、潜在的な脳の働きの解明、バイアスや錯覚、スポーツ脳科学等のサイエンスの追求に取り組んでいます。

高度なAI技術は、使い方を間違えると、人間の不完全さに付け込む、などということも考えられます。我々がめざすのは、人間とAIとの自然な対話や共感的コミュニケーション、価値観の共有など、人間とAIのギャップや対立を解消し人に寄り添う、Heart TouchingなAI技術の確立です。人間とAIが共生して心のふれあいを実現するこのHeart TouchingなAI技術は、今の状況において新しい生活様式を見据えた心豊かな社会をデザインするためにも、益々重要だと考えています。こうしたことを踏まえて究極には「こころまで伝わる」コミュニケーションの実現をゴールに研究に取り組んでいます。
 

図 コミュニケーション科学のミッション
図 コミュニケーション科学のミッション

人間の能力に迫り凌駕する技術

コミュニケーションの基本はまず話し言葉を認識し理解することです。人間は、複数人が同時に話す状況でも、聞きたい人の声に集中し、その声を聞き取れます。人間のそうした能力をコンピュータ上で実現することをめざしています。最近では声の特徴に加え、唇の動きを手がかりとして、似通った声の人でも聞き分けられるようになってきました。また、最新の音声変換技術では、人が話した音声の内容は保持したまま、声質や抑揚などの特徴を自由に変えることができます。これらの技術を発展させれば、発声・聴覚機能の障がいや加齢による衰えを克服した自然なコミュニケーションや、不慣れな外国語での会話のサポートなどが実現できます。

人間は、街なかでふと流れてきた音楽の短い断片から、知っている曲であれば、その曲名を当てることができます。これまで、音や映像の信号の断片を手がかりに、楽曲や映像の膨大なデータベースの中から一致するものを高速に見つけ出す「ロバストメディア探索」技術を研究開発してきました。この技術はNTTデータを通じて実用化され、放送番組で使用された楽曲を自動検出し、楽曲権利処理に必要な使用楽曲リストを生成するサービスとして、数多くの放送局で利用されています。最近では実空間での物体の探索にも取り組んでいます。例えば「適応的スポッティング法」は、実空間の3次元点群データから所望の形状の物体を素早く探し出す技術であり、人間が行うのと同じように、効率的な探し方を自ら学習することができます。

私達は数年前から国立情報学研究所の人工知能プロジェクト「ロボットは東大に入れるか」の一環として、人間が実際に解く問題を人工知能がどこまで解けるのかを明らかにする研究を進めています。その結果、2019年センター試験の英語筆記本試験において、185点(偏差値64.1)という極めて高い成績を達成できました。英語問題は、自然言語処理、知識処理の統合的な問題を多く含んでおり、得られた知見を、AIと人間のより自然な、よりわかり合える対話の実現に活かしています。

人間を深く理解し究めるサイエンス

一方で、AIの発展により、人間のことを深く知り、理解することは、ますます重要になってきました。例えば、インターネットで調べものをしている最中に、検索ワードにマッチした商品広告がさりげなく提示されると、いつのまにかクリックして購入してしまう、という事例が起こりえます。その際ユーザは、あくまでも自分の意志でその商品を購入したのであって、第三者に操られて商品を買わされたとは、あまり自覚しません。今後AI技術が発展すると、より巧みな、いわばAI版「サブリミナル効果」のリスクが高まると考えられます。

このようなリスクを防ぐためにも、人間がいつ、どのような思い込みを持つのか、そしてその思い込みがどう行動につながるかを、深く理解することが重要です。NTTでは、特に卓越したスキルを持つアスリートに着目して、アスリートの身体に現れる様々な生体情報から、彼らはどのように情報を捉えて判断しているのかなど、脳情報処理の解明に取り組んでいます。例えば野球選手において、打てる打者と打てない打者は何が違うのか?「ボールを良く見て打つ」というのは本当か?ストレートは本当に「まっすぐ」か?などです。これらの知見をアスリートに効果的にフィードバックすれば,脳機能を鍛えるトレーニング手法としても活用できます。

幼児の言語獲得過程の解明も進めています。人間の幼児は親とのコミュニケーションを通じて言語を習得します。人類は長い時間をかけて言語とそれを用いたコミュニケーションを進化させてきました。しかしながら、人類が文字を使うようになったのは比較的最近のことで、「読む」能力はもともと脳に備わった機能ではありません。「視覚」「聴覚」「言語」「認知」など脳の基本機能を柔軟に組み合わせて実現しているのです。
私達は、言語獲得の仕組みを理解するために、こどもがいつどんな語を理解し、発話できるかを大規模調査し、モデル化した「幼児語彙発達データベース」を構築しています。このデータベースは、こどもの「読む」能力の育成にも役立つと考えています。

おわりに

現在は電話に代わりソーシャルメディアが新たな主役として発達し、あまり親しくない人であっても、「いまどこにいるのか」とか、「今何をしているのか」などがある程度分かってしまいます。そもそも、個人が日々利用するスマートフォンは、これらの情報をすべて把握しており、むしろ使用者本人よりも詳しいかもしれません。一方、電電公社時代の黒電話には不思議な存在感とぬくもりがありました。
こうした世の中で、今後さらに技術が発達すると、コミュニケーションはどう変化するのか?「こころまで伝わる」コミュニケーションとは何か?NTTはこの問いに答えるべく人の能力に迫る研究、人を究める研究に取り組み、「こころまで伝わる」理想のコミュニケーションとは何かを探求しています。
私達はこれからも人々の幸福、最近の言葉で言えばウェルビーイングの向上に資する技術を創出し、パートナーの皆さまとのコラボレーションを通じて、心豊かな社会の実現へとつなげたいと考えています。

※当稿は「NTTコミュニケーション科学基礎研究所 オープンハウス2020所長講演 あなたを・もっと・知りたくて ~AIで人に迫り脳科学で人を究める~」から抜粋・再構成しています。
https://www.rd.ntt/cs/event/openhouse/2020/talk.html

関連するコンテンツ