統合ログ分析技術

技術領域
プラットホーム技術
組織名
ソフトウェアイノベーションセンタ

印刷用PDF (1.1MB)


背景・従来課題

クラウドサービスなどを支えるシステムは、物理的な設備の増加や仮想化に伴うシステム構成の大規模化・複雑化のため、人手による運用がより困難なものとなっています。システムを構成する機器や機種の多様化により、生成されるログも多種・多量となっており、運用者の経験や勘による故障箇所の決定や異常の原因特定は限界に近づいています。また、発生する障害も多様化しているため、これらを事前に検知するためには、これまで人手では把握できなかった異常や、正常にまぎれた普段と異なる振舞いを検出していく必要があります。

概要

システムから得られるSyslog等のテキストログと性能データ等の数値ログの両方から、人手では抽出できなかったシステムの振舞いや異常をデータマイニング・機械学習技術により自動的に抽出する技術です。運用監視のための市中製品は多く見られますが、詳細な分析は数値ログに限定されており、テキストログは可視化程度にとどまっています。本技術は数値ログとテキストログそれぞれに対する分析により、正常時や異常時の振舞い、すなわち、関連する性能値は何か、正常時にでるべきログメッセージは何か、異常時に見られるログメッセージは何か、といった特徴を抽出していきます。これらの特徴は、運用者に新たな知見を与えたり、今後の監視や分析対象を特定するために有用です。また、把握した特徴を使って、運用者のスキルに依存することなく、障害の予兆検知や原因の推定をサポートします。

特徴

  • 大量のテキストログから因果関係に基づく特徴的なログパターンを抽出することにより、定常運用時に出るべきログパターンの把握や、複数のログメッセージに紐づく障害の特定に活用
  • 多種性能値の相対的な分析により、単純な閾値設定では検知できない複合的な異常を検知し、無駄なアラートの抑制に貢献
  • 障害発生時のログを分析して学習し、現在の数値ログおよびテキストログの両方の状況から総合的に異常を判定

利用シーン

  • ネットワークやクラウド、サーバシステムの運用現場での活用による運用者の負担軽減
  • システムの現状把握による運用監視業務の見直し・効率化
  • これまで把握できていない異常の特定による監視ルールの拡充