真に「考える」AIへ。NTTにおけるAI技術の研究開発について紹介します。
人工知能(AI)の研究は、ビックデータ解析や機械学習、深層学習の進展を背景に、世界中で研究が加速しています。すでに数多くの領域で実用化が進みつつあり、実際にメディア処理など特定の機能においては人間の能力を凌ぐほどの成果をあげています。しかし、人間と同等の知能を持つAIがゴールだとすると現在まだそのゴールに到達しているとは言えません。NTTではゴールに向かう次のステップとして、個々人の思考の背景や、場の状況を理解して判断ができる「価値観」を受け止めるA Iが求められると考えています。
NTTではそれらを実現するにあたって、AIは、単に「見る」「聞く」「話す」だけの存在から、それらを組み合わせたうえで、より高次に合理的で分析的な思考を実現する「考える」存在になる必要があると考えています。
個々人の価値観に根ざしつつ自らも価値観を持ち「考える」AIを実現するためには、その前提として、「見る」「聞く」「話す」という人間の基本的な能力がAIに備わっている必要があります。「見る」能力においては、たとえばNTTが取り組む「アングルフリー物体検索技術」によって、少数の参照画像からでも変形する物体を高精度に識別できるようになってきています。「聞く」「話す」能力については、国立情報学研究所の新井紀子教授やアンドロイド研究の第一人者である大阪大学の石黒浩教授とディスカッションを重ねながら「音声認識・音声対話技術」のケーススタディ研究を進めています。
NTTは人間の多様な価値観を理解し自ら考えるAIを実現することでAIの活躍する領域をさらに広げようとしています。すでにいまの技術でも単純な文章の翻訳やカスタマーサポートにおけるチャット応対は実現可能ですが、それらは与えられた情報に対して最適化された回答を出力しているだけです。しかし、たとえばAI自身の経験にもとづいた新たな提案や問題提起ができるようになれば、ただ質問に答えるのではなく、人間の思考をより深めながら活動の選択肢を広げるようなコミュニケーションもとれるようになります。
さらには、AIとのコミュニケーションにおいて、AIが話し相手の価値観を推測するとともに自身の価値観を反映した応対ができれば、より豊かで創造的な会話が成立するでしょう。カウンセリングや高齢者施設などさまざまな領域へAIを導入するうえでも、その能力は重要になっていきます。
このような多様な価値観に根ざしたAIの実現を目指すことは、同時に、多種多様な考え方を柔軟に受け入れる「寛容さ」と、矛盾や破綻のない対応で人間から強い信頼を得ることができる「誠実さ」の実現にもつながります。考え方の多様性を認める「寛容さ」と、多様性を認め柔軟に振る舞いつつも首尾一貫した対応をする「誠実さ」を兼ね備えることでAIがより一層深く「考える」存在となって人々の思考を手助けできるように、私たちは「寛容さ」と「誠実さ」をAIに取り込むことに注力しながら、今後もAI研究を進めていきたいと考えています。
ここまでNTTが何を目指して研究を進めているかお伝えしてきましたが、以降はNTTが実際に行なっているAIに関する具体的な研究事例に関して紹介していきます。聞く・話す能力を支える「音声認識・音声対話技術」、見る能力を支える「アングルフリー物体検索技術」、時間と空間の予測を支える「時空間多次元集合データ解析技術」の研究事例を紹介します。
現在はA Iスピーカーやスマートアシスタントなどの普及により自然な対話を実現するための対話処理技術に注目が集まっています。NTTでは話者の意図を正確に理解できる音声認識システムや、チャットボットによる自動応対技術など、コミュニケーションにまつわるさまざまなテクノロジーの研究開発を進めています。
その一環として女優/タレントの黒柳徹子さんを模してデザインされたアンドロイド「totto」を開発しました。高精度な音声認識技術、再現性の高い音声合成技術に加えてキャラクター性を持った自然な会話を実現する対話処理技術を用いることで、ユーザーはまるで黒柳さん自身と話すようなコミュニケーションを楽しむことができます。
NTTでは半世紀以上にわたって音声認識の研究を行ってきました。当初は、はきはきと読み上げた音声しか認識できず認識可能な単語も少なかったのですが、日本で初めてWFST(Weighted Finite State Transducer)と呼ばれる技術を採用したことで、従来の100倍である1000万語のなかから最適な単語を認識することが可能になりました。また、近年話題の深層学習技術を活用することで、騒がしい公共エリアでモバイル端末を使った音声認識の精度を競う国際コンペティション(CHiME32015)において1位を獲得することができました。
NTTではAIの「見る」能力を向上させるために、2015年から「アングルフリー物体検索技術」の開発に取り組んでいます。これは、対象物をどの方向から撮影しても高精度に立体物を認識し、関連情報を提示することができる技術です。
従来の技術では認識精度を高めるために様々なアングルで撮影した大量の画像データが必要で普及しませんでしたが、「アングルフリー物体検索技術」では物体の3次元的な見え方の変化をシミュレートして入力画像と参照画像の間の対応関係を正確に特定することで従来の1/10程度の画像で物体を特定できるようになりました。
この技術は訪日外国人向けのサービスでも活用されています。その一つが「かざして案内」です。これは案内看板や建物、商品などにスマートフォンのカメラをかざすだけで、経路案内や観光の詳細情報がユーザーの母国語で表示されるサービスで、実証実験で実用レベルの性能が確認されました。
今後、対象範囲が広がって様々な製品が認識できるようになれば、レジ打ち業務の省力化や無人化、仕分け業務や在庫管理の効率化などにも活用されていくでしょう。
NTTでは多種多様なデータから人やモノの動きをA Iで予測する「時空間多次元集合データ解析技術」を構築している。現在はNTTドコモと共同でモバイル空間統計のデータを用い、日本全国の現在、および数時間先のあるエリアにおける人数を予測する「近未来人数予測™」の実用化に向けた検討を行っています。
これは、メッシュごとの人数の時系列データから潜在的な構造のモデリングを行い、潜在的な構造モデルの変動パターンを学習して予測することで250m〜500mメッシュ単位で、現在と数時間先の未来の人数を予測するというものです。この技術は交通の需要を予測して運行する「オンデマンド型バス」やカーシェアリングへの導入が検討されています。また、この技術を発展させて都市部における混雑や渋滞を解決する試みも行われています。具体的には、人や車の流れに関する情報をシミュレーション環境に取り組み、交通問題を回避する誘導策を探索してその結果を提示して集団を誘導することを検討しています。
ここからはAIの開発における3つの課題とそれらの問題を解決するために行われている取組に関して紹介していきます。
最初にお伝えするのは学習データに関する問題です。一般的にAIの開発においては学習データを大量に用意する必要があり、適用領域が増加・細分化されていくと適用領域ごとにデータを収集・蓄積・解析する必要があるのでそのコストが爆発的に増加してしまいます。
その学習データを軽量化する手段として注目されているのが転移学習です。これはある対象で学習させたモデルを別の対象に適応させる手法で、この手法を使うことでサンプルデータの数が限られていても精度を向上させることができます。
次にお伝えするAIの課題は「AIのブラックボックス化」です。一般的にAIは膨大なデータから機械的に学習して結果を導き出しますが、その処理過程を人間が理解することは困難です。AIの内部の処理が「ブラックボックス化」しているとその結果を信用するのも難しくなります。
その問題を解決するために求められているのが出力される結果に至った過程が分かる「AIのホワイトボックス化」です。それを実現すべくアメリカの国防総省国防高等研究所では2016年に「説明可能なAI」の実現に向けた研究開発の投資プロジェクトXAIをスタートさせています。
また、高度なAIを実現するためには当然高性能なハードウェアも必要となります。大量の計算を複雑に組み合わせて同時並列に実行することが求められるため、これまで一般に用いられていた汎用型のCPUやGPUでは性能が追いつかない、もしくは膨大な計算機資源が必要となるといった問題が生じます。そのため、これからはAIの演算に特化したフレームワークや専用のアーキテクチャの開発が重要となっていくことが予想されます。