NTTドコモソリューションズ株式会社

概要

 一度の障害が全国の利用者へ影響しかねない大規模IaaS基盤。その安定提供を担ってきたNTTドコモソリューションズ株式会社では、5,000台規模のサーバ/ネットワーク機器を対象に、24時間365日の監視と復旧支援を継続的に行ってきた。一方で、機器やサービスが多様化する中、膨大なログの中から状況変化の"兆し"をいち早く把握することは、年々難度が上がっていた。 2024年に発生した突発的なパフォーマンス低下は、こうした変化を"事前に捉えて活かす"仕組みづくりの必要性を改めて認識する重要な契機となり、AIによるログの変化点検知や原因推定を取り入れた「運用高度化モデル」の構築に着手。NTTテクノクロスと連携し、予兆把握・分析・情報共有を一体で進める次世代運用へと歩みを進めている。取り組みの狙いと成果、今後の展望を、仙徳伸也氏と小川陽平氏に伺った。


課題障害の兆候把握が難しく、膨大なログを兆候判断に生かせていなかった
対策エラーレベル以外のログも含めて収集・可視化し、AIで変化点を捉える"兆候起点の運用"へ転換
効果ログから兆候を先に把握し、原因特定も迅速化する運用高度化モデルを構築

課題

全国を網羅する大規模プラットフォームを24時間365日止めないために

 NTTドコモソリューションズのネットワーククラウド事業本部プラットフォームサービス部は、ミッションクリティカルな大規模IaaSプラットフォームを安定稼働させるための維持・管理を担い、24時間体制で監視を実施している。障害発生時には迅速な復旧を支援しているものの、5,000 台規模のサーバ/ノードが稼働する大規模環境の管理には限界があり、どうしても初動判断や切り分けに時間を要するケースもあった。いかにして「障害発生を未然に検知し、障害発生時の対応を迅速化するか」が、プラットフォームサービス部の抱える課題だった。

予期せぬ重大なパフォーマンス低下。抜本的な対策が急務に


NTTドコモソリューションズ株式会社
ネットワーククラウド事業本部
プラットフォームサービス部 DPS-BU
Managed Cloud担当
統括課長:仙徳 伸也 氏

 2024年、IaaSプラットフォームで重大なパフォーマンス低下が発生した。データの処理速度が低下し、解消に数時間を要するインシデントであった。数カ月間かけて検証を進めた結果、障害の原因が非常に稀な事象であり、より広範な視点での改善策が必要との結論に至った。

 対策を検討する過程で、NTTテクノクロスからElasticsearch(以下、Elastic)を活用したオブザーバビリティ・ソリューションの提案が持ち込まれた。「提案内容が、まさに我々が実現したかったことと一致していました。同時期に部内でサービス高度化に向けてオブザーバビリティや構成管理をエンハンスする施策を検討していましたが、 NTTテクノクロスさんからの提案は現状の課題解決に留まらず、その先をいく『故障予兆検知』まで踏み込んでおり、これこそが取り組まなければならない具体策だとの気付きを得られました」と、仙徳氏は振り返る。








膨大なログデータを収集・蓄積して故障予兆を検知


NTTドコモソリューションズ株式会社
ネットワーククラウド事業本部
プラットフォームサービス部 DPS-BU
Managed Cloud担当
スペシャリスト:小川 陽平 氏

 これまでは、故障予兆を把握するための仕組みを十分に整備できていなかった。大規模環境から出力されるすべてのログを収集し、故障予兆を検知できるツールがなかったからだ。「CPU使用率超過など特定のアラートを出す機器はありますが、大半の機器は明示的なメッセージを出しません。つまり、膨大なログから異常値を目視で拾い上げる以外に故障予兆を検知する方法はなかったのです」と、小川氏は話す。

 一方、Elasticは膨大なデータを収集・蓄積して、故障予兆の検知を得意とする。当然ながら、他社ツールとの比較も行われたが、処理性能やコスト面でのパフォーマンスが上回っており、Elasticが最適な選択肢であると判断された。












故障予兆の検知から運用高度化まで「3つの柱」で先行的な取り組みを推進

 運用高度化に向けた取り組みは3つの柱(テーマ)で進められた。1つ目のテーマは「故障予兆の検知」だ。重大なインシデントを早期に発見し、障害が顕在化する前に対処できるかを目的とし、実際の運用のログを使い、事後的な分析ではなく事前の兆候として捉えられる情報が存在するかを検証した。

 2つ目のテーマは、「故障解析と復旧の迅速化」だ。例えば、IaaSプラットフォーム内で物理サーバが故障すると、その上で稼働する仮想サーバやネットワーク機器などが複数レイヤにまたがって同時多発的にアラートを発信する。従来の運用では、これらのアラートを個別に確認し、切り分ける必要があり、真因の特定に時間を要することが課題だった。本取り組みでは、その膨大なメッセージを横断的に分析し、障害の真因を早期に特定できるかを検証した。

 3つ目は、「チーム間の情報共有の効率化」をテーマとした。IaaSプラットフォームの維持管理・監視はプラットフォームサービス部とは別の部門で行われ、障害対応には課題管理ツールを通じた情報共有が行われている。障害発生時には、部門間の情報共有のスピードがそのまま復旧対応のスピードに直結するが、初動対応に必要な情報の整理や登録には一定の手作業が発生している。 そこで本取り組みでは、ElasticとAIを活用し、障害発生時の情報整理・付加を自動化することで、課題管理ツールへの情報登録を迅速化できるかを確認した。

明確になった故障予兆の存在

 1つ目のテーマである「故障予兆の検知」では、想定以上の好結果がもたらされた。過去に発生した障害の情報を一切与えず、“エラーレベル以外の膨大なログ”だけを渡したにもかかわらず、人手ではまず見落とすレベルの変化を正しく捉え、「物理故障の兆候」を自動で抽出できた。重大インシデント発生時のログをElasticにインプットして可視化した結果、3カ月前から通常時とは異なるログが出力されており、インシデントが生じた当日には、そのログが大量に発生していたのだ。「衝撃的な結果でした。もしElasticを導入していれば、あの重大インシデントを未然に防げた可能性があったということです」と、小川氏は話す。

「これまでは故障を未然に防ぐ方法はないと思っていましたが、Elasticを組み込むだけで故障予兆を数カ月前に検知できることがわかりました。非常に満足度の高い結果を得られました」と、仙徳氏はElasticを高く評価する。

圧倒的な処理性能と機械学習により、運用高度化を実現へ

 2つ目のテーマでも期待通りの効果が得られた。従来は、障害を検知してから故障機器を特定するまでに膨大な時間を要していたが、Elasticの分析画面では関連ログを即座に抽出し、原因候補となるメッセージを瞬時に絞り込めたのだ。

「通常の監視業務は重要ログをいかにピックアップするかを重視しますが、機械学習は通常時から故障予兆の可能性があるという観点でログを取り込む、まったく逆のアプローチです。今回の検証では、通常時に出力される膨大な量のログを与えてもElasticの処理性能は劣化することがなく、 期待以上の結果を得られました」(小川氏)

 3つ目のテーマでは、アラートメールにAIで解析した故障の原因や対策、過去の類似例などの情報を付加して送信し、課題管理ツール に自動的に登録するプロセスを確認した。今回は構成情報の一部を活用した段階であるものの、Elasticが外部インター フェイスと柔軟に連携できる点で、今後の運用高度化に向けた発展的な活用の可能性を感じる結果となった。

障害発生率50%・運用稼働30%削減に向けて

 プラットフォームサービス部は、2027年度までにミッションクリティカルなIaaSプラットフォームの故障発生率を50%、運用稼働を30%削減することを目標に掲げている。

「Elasticを導入して機器の悲鳴をいち早くキャッチできれば、予防交換により障害発生を未然に防止できると思います。また、障害発生時の大量のログも要不要を一瞬で判断できるので、復旧スピードの向上を期待できます。これらの相乗効果で運用稼働30%減の達成も十分に可能と考えています」(小川氏)

 仙徳氏も「当部のミッション実現には、運用高度化と故障予兆検知が欠かせません。サービスの品質や価値をより高めるため、さらに故障予兆検知のノウハウを蓄積し、これからもNTTテクノクロスさんと一緒に、運用高度化を加速していきます」と、未来を見据える。

お客様プロフィール

 お客様プロフィール
設立 1997(平成9)年9月1日
事業概要 情報通信システム及びこれに関わるソフトウェア又は、各種装置の開発、製作、運用、保守及びそれらの受託など
資本金 200億円
従業員数 5,083名(2026年3月末)
URL https://www.nttcom.co.jp/

NTTドコモソリューションズ(旧:NTTコムウェア)は、NTTドコモグループの中核を担うシステムインテグレーター(SIer)、主に法人ビジネスに特化した大規模ITシステム開発を中心に事業を展開

・ページに記載した会社名、製品名などの固有名詞は、一般に該当する会社もしくは組織の商標または登録商標です
・本ページは2026年2月取材時の情報です