IOWNを支える技術解説

階層型行動理解技術

映像から人の行動をリアルタイムかつ高精度に認識する技術

「階層型行動理解技術」とは、映像にうつる人の行動を解析するAI技術です。映像での遠隔モニタリングや現場作業者の業務行動分析などの業務DXにおいて人の行動を高精度に認識し、少ない計算リソースの環境下でも推論可能な技術として活用されます。

技術背景・課題

通信技術が発展しネットワークの大容量化に伴って様々な場所に設置されたカメラから映像を伝送することが可能になっています。IOWNによって、さらに大量の映像を容易に集約できる環境が整い、映像を活用したサービスの可能性が高まっています。NTT研究所では、カメラから伝送される映像を活用して、映像にうつる人物の行動を、抽象的な意味と紐づけて階層的に分析することに着目した「階層型行動理解技術」の研究開発を進めています。

技術の概要・特徴・内容

「階層型行動理解技術」とは、映像から人物の行動をリアルタイムかつ高精度に認識理解する技術です。下記の様な3つの特徴があります。

  1. 人物の行動を複数の抽象度で認識理解することが可能です。具体的には「歩く」「かがむ」などの業界依存性の低い基本行動に加えて、複数の行動を組み合わせた「製品を組み立てる」などの業界依存性の高い複合行動の認識が可能です。
  2. 人物が扱っている物体に備わる行動可能性を考慮し、道具を使った作業において学習データが少ない行動での誤認識を低減することができます。
  3. 「階層型行動理解技術」の3つの特徴それぞれについて、現在の取り組みと効果をご紹介します。

技術目標・成果・効果

「階層型行動理解技術」の3つの特徴それぞれについて、現在の取り組みと効果をご紹介します。

  1. 従来の行動認識モデルの多くは、業界依存性の低い「歩く」「持つ」などの基本行動認識を行います。NTT独自の複合行動認識機能は、「商品入れ替え」等、いくつかの行動が組み合わさってできる複合行動を認識することができます。基本行動と物体情報を用いて認識することで多様な行動を認識し、様々な業界特有の行動を認識理解し、作業の分析に活用することができます。
図1
  1. 従来は物体に備わる行動に関する知識を活用せず、人物の動きにフォーカスして人の行動を認識しており、特に学習データの少ない認識対象において誤認識が発生していました。物体検出で検出した物体に備わる行動可能性を考慮することで、工場の組み立て作業等、道具を使った作業において学習データの少ない行動での誤認識を低減することができます。本技術は国際会議WACV2024に採択されました。
図2
図3
  1. 行動認識に必要な物体検出、姿勢推定のモデルサイズをそれぞれ1/2程度軽量化しました。これにより、モデルの軽量化が必要なエッジデバイスであるスマートフォンで行動認識をリアルタイムで動作させることを実現しました。

想定される適用分野・PoC

遠隔からのモニタリング時に適用する場合、エッジデバイス上での高精度な行動認識によって個人情報を送信せずに特定の行動(転落、転倒等)を検出し、駆け付け対応等を効率化することが可能です。

また、業務中の行動を分析する際には、業務マニュアルに記載のある行動の認識をクラウドサーバ、エッジデバイスの両方で実現することで業務効率化に向けた分析を実現するとともに提供シーンを拡大することができます。

業務中の行動を分析する例としては、工場等にカメラを設置し集めた大量の映像から、作業員の行動を「歩く」「かがむ」等の具体的な意味と紐づけて理解することで作業負荷を推測する、「製品を組み立てる」等の抽象的な意味と紐づけて理解することで熟練作業員の業務の進め方を把握するなど、業務効率化を図ることができます。

今後の展望

今後は複数の行動や物体情報を組み合わせた複合行動認識をさらに発展させ、マニュアル等の外部知識や大規模言語モデル(Large Language Models: LLMs)を活用して柔軟に様々な業界の行動説明を可能にし、適用可能な業界を拡大していく予定です。