ネットワークオペレーションを効率化・自動化するNetwork-AI
Network-AIを活用した、故障/品質劣化に対して強靭なICT基盤・ネットワークの実現

技術背景・課題
NTTネットワークサービスシステム研究所では、IOWNにおける社会の多様な価値創造を持続的に支え、故障/品質劣化に対して強靭なICT基盤・ネットワークを実現するための自己進化型ゼロタッチオペレーションの実現を目指しています。その実現に向け、環境変化を予見して自律適応を行い、判断結果を解釈可能なNetwork-AIの研究開発に取り組んでいます。
技術の概要・特徴・内容
ネットワークの内部および外部で膨大に流通する装置・システムログなどの構造情報と保守者の対応履歴などの非構造情報を多角的に分析し、保守者のIntent(サービス影響ゼロなど)に基づきネットワークオペレーションを効率化・自動化する技術がNetwork-AIです(図1)。大規模な通信故障や災害に対して、より強靭なネットワークの実現を目指し、ICTを取り巻く激しい環境変化への“自律適応性”、複雑/未知な想定外事象を極小化する“予見性”、判断結果の“解釈性”を備えたAIの研究開発に取り組んでいます。

技術目標・成果・効果
環境変化への”自律適応性”は、ネットワーク保全業務の監視・分析・対処で取得するデータに基づく機械学習と、データ傾向の変化から学習モデルの更新時期を検出する技術で実現します。具体的には、深層学習を用いたICTシステムの異常検知技術(DeAnoS®️)・故障個所推定技術(DeAnoS-RCA)などを検討しています。
また、複雑/未知な想定外事象を極小化する“予見性”は、システムの構築・検証段階での学習によって高め、保全業務での想定外事象の極小化を目指しています。具体的には、デジタルツインや検証環境で多種多様な故障をカオスエンジニアリングで発生させ、予見性を高める検討などを進めています(参考:https://journal.ntt.co.jp/article/23448)。
最後に、AIの判断結果に解釈性を与え、ヒトによる最終判断や評価を可能とすることは、オペレーションの効率化・自動化の実現・普及のために重要です。急速に発展・普及する大規模言語モデル(Large Language Model: LLM)は、言語や画像などの非構造情報を扱うことが可能なため、保守者の対応履歴の分析やシステム検証結果の分析などに適用し、AIの判断結果に解釈性を持たせる技術の検討などを進めています。
ネットワークオペレーションの多岐に渡る業務の高度化に向け、様々なNetwork-AIを検討しており、具体例として3種類の技術を紹介します。
DeAnoS®️/DeAnoS-RCA
故障による影響を最小化するには、まず潜在的な性能劣化リスク(故障・輻輳など)や需要変化を予見的・早期に検知することが重要です。そこで我々は、ディープラーニングに基づく異常検知技術「DeAnoS®️:Deep Anomaly Surveillance」の検討を進めています。本技術はディープラーニングの一種であるオートエンコーダ(AE)を活用した技術であり、(a)ネットワークやシステムから収集された多種多様なデータの正常状態を学習して、(b)その状態からの逸脱度合を異常度として出力することで異常を検知します(図2)。加えて、異常検知結果に基づき異常に寄与した入力パラメータの推定機能を具備しています。
更に DeAnoSなど異常検知技術による故障検知結果に基づいて発報されたアラートなどの観測情報と、ネットワークトポロジーの因果関係を分析することにより、事前ルール不要で故障箇所を推定する「DeAnoS-RCA」の検討を進めており、監視から分析までシームレスに行うための仕組み作りを進めています。 また、想定外の故障にも対応するため、動的な因果関係の修正を行う機能を具備しています。

深層強化学習とカオスエンジニアリングを用いたICT システムの自動復旧フレームワーク
故障復旧に向けた行動の決定には、ネットワークやシステムから収集したログやメトリクスなどの観測データに基づく判断、あるいは判断内容の事前ルール化が必要になります。これらの実現には幅広い知識・ノウハウや膨大な稼働が必要です。そこで我々はこの問題を解決するため、深層強化学習とカオスエンジニアリング(CE)を用いた自動復旧フレームワークを提案しました(図3)。
本フレームワークでは、CEを活用して対象システムに故障を挿入すると同時に、深層強化学習を用いて復旧に向けた行動を決定します。行動の結果、対象システム状態を観測して、復旧が進むほど深層強化学習に高い報酬を与えることで、より効率的な復旧行動を自動で学習することが可能となります。

措置レコメンド
LLMを用いたオペレーションの効率化手法として、発生した故障に対する措置手順を提示する措置レコメンド技術を検討しています(図4)。各種アラームに関するオペレータからの問い合わせに対して、過去の故障対応の作業記録(措置履歴)を元にLLMが対応手順を回答する技術の検討を進めています。

想定される適用分野・PoC
異常検知技術DeAnoS®️はNTTアドバンステクノロジ(NTT-AT)で@DeAnoSとして製品化されています(参考:https://www.ntt-at.co.jp/product/da-deanos/)。適用分野として、情報通信ネットワークのトラフィック疎通の異常検知・IoT機器の異常予兆検知・ICTシステムの異常予兆検知など、情報通信・IT分野で幅広いユースケースが存在します。また、原理的には設備の状態を数値で管理しているようなユースケース、例えばプラントの監視など適用対象は幅広く、ITER機構が進めている核融合実験炉の取り組みにも参画して、核融合実験炉の構成機器の一つである循環ポンプの故障時の判定が可能であることを確認しました(参考:https://group.ntt/jp/newsrelease/2023/11/21/231121b.html)。加えて、ナレッジ駆動型システム運用自動化ソリューションとして、生成AIとDeAnoSを組み合わせて運用オペレータの属人化を防ぐ取り組みもNTT-ATで進めています(https://www.ntt-at.co.jp/product/da-knowledge-automation/)。
深層強化学習とカオスエンジニアリングを用いたICT システムの自動復旧フレームワークや措置レコメンドは現在進行形で研究開発を進めている技術であり、同時並行でステークホルダとの技術検証を進めており、このような取り組みを通じて技術の有効性検証やユースケースの具体化を進めています。
今後の展望
NTTグループ各社などのステークホルダと連携しながら、技術検討・検証を進めて提案技術の実用化を目指します。また、NTTグループ各社を通じて情報通信分野に限らず様々な分野への社会実装を進めて、顕在化している社会課題の解決を目指します。