NICの研究開発

AI活用によるネットワークキャリアのオペレーション高度化
～自己進化型ZTOフレームワーク：異常検知AI（平常時乖離分析）第２回～

NIC　ネットワークオペレーションプロジェクト

渡部　修平（わたなべ　しゅうへい）

#自己進化型ZTO#NW-AI#異常検知

2025/5/8

はじめに

第1回記事^（※1）ではNW-AIの紹介に先んじてネットワークにおける異常検知がどういったものか、について触れました。ここからは自己進化型ZTOフレームワーク^（※2）に含まれているNW-AI機能のひとつである異常検知AI（平常時乖離分析）について以下の順に解説します。

・ネットワークの異常検知における課題とAI活用の背景
・異常検知AI（平常時乖離メトリクス分析および平常時乖離ログ分析）
・平常時乖離分析技術の実用化開発

ネットワークの異常検知とは何か？や自己進化型ZTOフレームワークについては別記事にて紹介しておりますので、ぜひご参照ください。

前記事のリンク:
AI活用によるネットワークキャリアのオペレーション高度化　～自己進化型ZTOフレームワーク：異常検知AI（平常時乖離分析）第1回～^（※1）
AI活用によるネットワークキャリアのオペレーション高度化　～自己進化型ZTOフレームワーク～ ^（※2）

ネットワークの異常検知における課題とAI活用の背景

現在、ネットワークを通じた情報通信は、ビジネス、教育、医療、行政、エンターテインメントなど、多くの社会活動を支えおり、ひとたび機能が停止してしまうと社会の円滑な運営に大きな影響がでてしまいます。そのため、機能停止の要因となる異常の検知をリアルタイムに行い、障害やパフォーマンスについての異常の対処を迅速に行うことで、安定的なサービス提供を実現しています。
一方で、近年5GやIoTの拡大、クラウドサービスの普及などの技術革新によってネットワークサービスは急速な進化を続けていますが、その進化に伴いサービスを提供するネットワークの構成や管理が複雑化しており、以下に示すような問題が発生するようになっています。

データの可視化と解釈の難しさ

データを収集するだけでなく、運用システムに警報として表示をして運用者に通知するなど適切に可視化し、異常の兆候といった事象を迅速に発見できるよう運用環境を設計する必要があります。しかし、大規模ネットワークのような構成要素の多いシステムでは様々なデータが混ざり合うことで個々の事象を捉えることが難しくなります。結果、ノイズ混じりのデータの中に埋もれる形で重要な事象を見落とすようなリスクがあります。

膨大なデータ量とリアルタイム性の確保

大規模なネットワークでは、わずかな間に数万件といった規模のログやメトリクスの更新が発生します。具体的には、ネットワークを構成する数百から数千台規模の装置からCPU使用率、データのトラフィック量、エラーログやデバッグログなど多種多様な情報が同時に生成されていきます。この膨大なデータをリアルタイムで処理し、異常を即座に検知/対処するのは容易ではありません。

これらの問題に対して、これまでは計算資源や人的リソースを大量に使うことで分析を行いネットワークサービスの安定性を実現してきました。しかし、上で述べた通り、構成や管理が複雑化することに伴い管理情報であるログやメトリクスも複雑化を続けており、人手での分析と安定性の実現が難しくなってきているのが現状です。そのため近年目覚ましい発展を遂げているAIの技術を活用し、これら問題の解決に取り組むのが平常時乖離分析になります。
平常時乖離分析は装置の故障やトラブルなど異常が発生していない、ネットワークが正常に機能している状態を「平常時」として、その状態からの「乖離」をAIによって検知し運用者へ通知するための技術になります。
ここから平常時乖離分析の技術内容の紹介に入っていきますが、分析に用いるデータの種類に合わせ、メトリクス分析とログ分析の2種類存在していますのでそれぞれを紹介していきます。

平常時乖離メトリクス分析

平常時乖離メトリクス分析は装置を通過するトラフィックの量やパケットロスといったメトリクスデータについて、普段では見られないようなデータの変化パターンをAIを用いて検出し、異常として運用者に通知する機能です。

平常時メトリクス分析の動作概要を図1に示します。

平常時乖離メトリクス分析において使用するのはメトリクスの時系列データで、ターゲットとする情報によって様々な変化が発生します。例えば一般的なインターネットのトラフィック量については人が活動する日勤帯でデータ量が増え、寝静まる深夜にはデータ量が減る波形になりますし、パケットロスのようなデータは発生した瞬間にスパイクするような波形を描くことになります。無数に存在する変化特性を理解し、数百万というメトリクスデータの変化を人がリアルタイムに把握していくことは不可能であり、AIの技術を使ってその変化を捉える部分を実現しています。
具体的な異常の分析の部分についてですが、まずターゲットとする時系列データについて過去のデータ傾向から未来の値を計算し、実際に観測できた値との乖離の大きさを用いて異常かどうかを判定、運用単担当者へ通知します。

平常時乖離ログ分析

続いて、ログの異常検知AIである平常時乖離ログ分析は、装置から出力されるログについてAIを用いて分析し、装置故障やトラブルなど普段は見られないようなログパターンを発生させる事象を異常として運用者に通知する機能です。

この平常時乖離ログ分析の動作概要を図2に示します。

まず各種装置から収集されるログデータは装置の中で動作している様々なプログラムがそれぞれのルールにしたがって記録したもののため、正常/異常に関わらず動作を記録する形になっています。そのため分析のためには、混在状態のログの中から分析対象となる異常な状態のログを見つける必要があります。前項で示した通り、構成規模が大きくなるほどログの出力量が増え、複雑なログの中から人の目で対象のログを見つけて分析することが困難であるため、そこにAI技術を活用して機械的に効率よく分析していく形を実現しています。
では、具体的にどのようにAIを使って分析を実施するか？という部分ですが、まずは事前準備として、故障やトラブルが発生していない状態のログを使って正常なログのパターンを学習します。そして、新たに分析を行いたいログが入力された際にはその正常なログのパターンとの類似度を計算し、正常状態から外れた（=異常となる閾値を越えた）際に異常と判定してNWの運用担当者へ通知を行います。
この学習と分析のサイクルを繰り返して正常なログのパターンの精度を高め、人の目での確認ではリアルタイムに見つける事が難しかったログのパターンを漏れ無く発見できるように自己進化していくことが平常時乖離ログ分析技術のポイントとなります。

以上、平常時乖離メトリクス分析とログ分析を合わせて活用することで異常への対応力を高め、ネットワークの安定性に貢献していくことができます。

平常時乖離分析技術の実用化開発

ここまで、平常時乖離分析技術が何であるかを紹介してきました。
考案した技術については、大規模にネットワークを運用しているNTTグループ各社（NTTコミュニケーションズなど）と協力して実証実験（PoC: Proof of Concept）を実施して評価/開発を行い、実運用環境へ導入するという実用化開発の取り組みまでを研究開発として行っています。
世の中の状況を素早くキャッチアップし、その変化に合わせてタイムリーに開発した技術をリリースすることでより良いサービスを創造していくことが私たちのミッションになります。

まとめ

本記事では自己進化型ZTOフレームワークに含まれる異常検知AI（平常時乖離分析技術）について紹介させていただきました。ネットワーク運用を支える技術は多岐に渡りますが、その一端にでも触れていただき理解の助けになれば幸いです。世の技術トレンドは進化し続けていますが、私たちも新たな技術の創出を通じてさらなるネットワークオペレーションの高度化に向け取り組んでいきます。

AI活用によるネットワークキャリアのオペレーション高度化～自己進化型ZTOフレームワーク： 異常検知AI（平常時乖離分析） 第２回～