トラヒック・エンジニアリング技術

【研究成果】

研究成果1

モデル予測制御によるトラヒックエンジニアリング

イベントによるユーザ集中やスマートフォン等のモバイル端末でのソフトウェア更新、ユーザの利用形態の変化等、突発的なトラヒック変化を過去のトラヒックデータから予測することは困難ですが、そのような変化が発生しても、安定した通信を提供可能とするネットワークが求められています。従来は、突発的なトラヒック変化によるネットワーク輻輳発生後、該当区間に流れるトラヒックの一部、または全てを他の経路に迂回する等、リアクティブな制御が一般的でした。仮想化ネットワークでは、リソース割当や変更が柔軟に行えるため、突発的なトラヒック変化が発生しても、リアクティブな制御が不要となるように、事前のリソース割当を工夫して行うことで、リソースの最大活用とネットワーク安定性の両立が実現可能となります。このように、トラヒック予測に基づき、ネットワークリソースやトラヒックの制御を行う技術を、プロアクティブなネットワーク制御と呼びます。我々はプロアクティブなネットワーク制御に向けて、予測外れに耐性のあるトラヒックエンジニアリング技術の研究開発を進めています。

トラヒックエンジニアリングは、トラヒックの経路を動的に制御することで、限られたネットワークリソースでより多くのトラヒックを収容するための技術ですが、従来の予測型トラヒックエンジニアリング技術はトラヒック予測が正確であることを前提として開発されているため、大きな予測外れが生じた場合には誤った予測結果に基づいて非効率なトラヒック経路が設定されてしまう可能性があります。さらに、ネットワーク利用効率の最適化のみを目的として経路制御を実施するため、トラヒック変動に合わせて各制御周期でトラヒック経路が大きく変動します。これにより、トラヒックの伝播遅延が制御のたびに大きく変化してしまい、通信品質を低下させてしまいます。

このような課題を解決するために、我々の研究グループはモデル予測制御を応用したトラヒックエンジニアリング技術に取り組んでいます(図1)。モデル予測制御とは、予測困難な外乱を含むシステムを制御対象とした制御理論の一種で、プラント制御の分野で実用化が進んでいる実践的な制御手法です。 モデル予測制御では、予測困難な外乱を前提としており、外乱に起因する誤制御を防ぐために、各制御サイクルでの制御量を抑えつつ段階的に目標値に近づける制御を実施します。我々はモデル予測制御の考え方をトラヒック制御に応用することで、トラヒック予測外れによる誤制御を防ぐ、予測誤差にロバストな経路制御を実現しました。具体的には、従来の予測型トラヒックエンジニアリングにおける最適経路算出のための数理計画問題に、モデル予測制御の特徴を組み込むことで新しい数理計画問題を定式化しました[Takahashi]

提案手法の評価のため、米国の実験ネットワークInternet2のトポロジ情報、リンク遅延情報およびフローデータを再現した環境を構築しました。図2に、従来の予測型経路制御を適用した場合と、モデル予測制御を応用した経路制御技術を組み合わせた制御手法を適用した場合におけるリンク別トラヒック量の時系列変動を示します。従来手法では、いくつかの時間帯で特定リンクにトラヒックが集中しており、ネットワーク混雑が発生しています。一方で、提案手法は、スパイクトラヒックを分散できており、特定リンクへのトラヒックの集中を抑えられている。ピーク時間帯における最大リンク負荷を比較した結果、提案手法は従来手法と比較して最大リンク負荷を約50 %低減できていることが確認できます。

■参考文献:
[Takahashi] 高橋洋介・石橋圭介・上山憲昭・塩本公平・大歳達也・大下裕一・村田正幸,”フローベースネットワーク制御のためのマクロフロー構成手法,” 信学技報2014-02-IA-IOT-SITE, 2014年2月.

研究成果1-図: モデル予測制御によるトラヒックエンジニアリングのイメージ

研究成果1-図:モデル予測制御によるトラヒックエンジニアリングのイメージ

図をクリックすると、拡大図が別ウィンドウで開きます。

研究成果2

シスログ分析による故障検知技術

ネットワークの状態を推定するためのデータ源としては、装置が出力するアラート、状態変化等を示すシスログ、さらにリンク、CPU等リソース使用率の性能ログが挙げられます。また、それ以外にいわゆる試験呼によるサービス監視情報、さらにお客様申告やtwitterなどのネットワーク外部のデータもネットワーク状態推定に利用可能です。これらデータ源を組み合わせて、ネットワーク状態を推定します。

ただし、シスログはベンダ依存の自由フォーマットのテキストログであり、統計処理が困難であることに加え、1行1メッセージの形式であるが、状態変化によっては複数メッセージに渡って発生するものもあり、この場合複数メッセージをグルーピングして状態変化を検出する必要があるという課題があります。これらの課題に対して、我々は機械学習を用いたアプローチを検討しています。具体的には多数のシスログデータからパラメータ部を推定し、同部分を無視することにより同種のログをグルーピングするベンダ非依存、事前知識不要なテンプレート化技術、さらに同時に発生しやすいメッセージをグルーピングするイベント抽出技術を確立しました[Kimura1] (図2)。

また、これらデータ源から推定した状態に基づき故障検知を行います。従来の故障検知は、シスログの特定文字列発生や性能ログの閾値超過などのルールによるものが一般的でした。しかし、いわゆる故障か故障でないか判別が困難な事象に対して、ルールベースの監視では偽陽性、偽陰性の課題があり、機械学習の適用によりこれら課題を解決出来る可能性があります。機械学習による異常検出は、主に過去に発生した故障と関連する状態を学習し、その状態を故障状態、及び予兆として検知するアプローチと通常状態から統計的に逸脱を異常として検知するアプローチに大別されます。後者は未知故障に対しても適用可能であるという特徴がある反面、発生事象の特定が困難であるという課題があります。我々は故障時に特異に発生するシスログの抽出や、周期性や発生頻度が低いシスログを抽出する双方のアプローチで異常検知する技術を確立しています[Kimura2]

■参考文献:
[Kimura1] Tatsuaki Kimura, et.al., “Spatio-temporal Factorization of Log Data for Understanding Network Events,” IEEE INFOCOM’14, May 2014.

[Kimura2] Tatsuaki Kimura, et.al., “Proactive Failure Detection Learning Generation Patterns of Large-scale Network Logs”, CNSM 2015, November 2015.

研究成果2-図: シスログ分析による故障検知技術のイメージ

研究成果1-図:シスログ分析による故障検知技術のイメージ

図をクリックすると、拡大図が別ウィンドウで開きます。

研究成果3

不正トラヒック検知・対策技術

安心で高信頼なネットワークサービスを提供するためには、DDoS攻撃,ソフトウェア脆弱性攻撃,スパムメール、マルウェア配布サイト、フィッシングサイトアクセスなどの不正トラヒックを検出し、ブロッキング等の適切な対処を行う必要があります。

NTT研究所では、これら不正トラヒック検出について、正常トラヒックからの乖離によって検出するアノマリ型検出技術と、不正トラヒック特有なアドレスやドメイン名リストとの照合によって検出するシグネチャ型検出技術の両面から研究開発を行ってきました。

アノマリ型検出については、多数の監視地点・項目で観測されるネットワークトラヒック量に基づき、異常を自動検出しオペレータへ通知するための動的閾値設定技術を開発しました[Harada]。この技術は、過去のネットワークトラヒック変動の特徴を統計的に学習することで、現在のネットワークトラヒック量を高精度に予測するものです。そして、予測値と実観測量との比較により、DDoS攻撃のようなトラヒック量増加を検出します。また、トラヒック量による異常検出だけでなく、ユーザのアクセス先ドメイン名パターンをエントロピーによって表現し、正常ユーザのパターンと異常ユーザのパターンを分離する技術を開発しました[Ishibashi]

一方、シグネチャ型検出については、その課題とされている新規不正トラヒックアドレスやドメイン名に対する検出困難性に対するアプローチとして、既知のリストを拡張、統合することによって、検出精度を高める技術を開発しています。[Sato]では、既知の不正トラヒックドメイン名リストに基づき、当該リストにアクセスしたユーザが他にアクセスし手いるドメイン名を共起関係分析によって抽出し、不正トラヒックドメイン名リストを拡張しています。また[Mori]では、複数の不正トラヒックのアドレスリストを、その信頼度に応じて重み付けすることによって、高精度のアドレスリストを生成する手法を提案しています。

今後は、検出手法の高度化とともに、検出した不正トラヒックの制御方法についても研究開発を進めていく予定です。

[Harada] S. Harada, R. Kawahara, T. Mori, N. Kamiyama, S. Hasegawa, and H. Yoshino, ``A method of detecting network anomalies in cyclic traffic','' Proc. IEEE GLOBECOM 2008, pp. 2057-2061, New Orleans, LA, USA Dec., 2008

[Ishibashi] Keisuke Ishibashi and Kazumichi Sato, ``Classifying DNS Heavy User Traffic by using Hierarchical Aggregate Entropy,'' World Telecommunications Congress (WTC) 2012, Miyazaki, Japan, March 2012 (accepted).

[Mori]森達哉、佐藤一道、高橋洋介、木村達明、石橋圭介、 ``IPレピュテーションの統合方法,'' IA/ICSS研究会、 2011年6月

[Sato]Kazumichi Sato, Tsuyoshi Toyono, Keisuke Ishibashi, Haruhisa Hasegawa, and Hideaki Yoshino, ``Extending Black Domain Name List by Using Co-occurrence Relation between DNS Queries,'' IEICE Trans. Commun., vol.E95-B, no.03, Mar. 2012.

研究成果3-図: アクセス先ドメイン名パターンによる正常ユーザと不正ユーザの分離

研究成果3-図: アクセス先ドメイン名パターンによる正常ユーザと不正ユーザの分離

図をクリックすると、拡大図が別ウィンドウで開きます。

研究成果4

故障対応ワークフロー可視化技術

巨大な通信ネットワークを安定して維持し続けるためには、通信ネットワークで起こる多様な故障の迅速な復旧が必要不可欠です。 このためには故障対応手順を定型化して、故障発生時にオペレータは定型化された手順に基づいて迅速に行動することが重要です。 しかし、近年発達している仮想化技術などを用いて大規模化・複雑化した通信ネットワークでは、多様な故障の復旧作業に様々な知識を必要とされ、個人の知識に頼った属人的な対応も見受けられます。 そのため、故障対応手順の定型化は、多くの知識が求められるとともに、属人的に蓄積された暗黙知を明らかにする非常に難しい業務です。

我々は、故障対応手順の定型化を自動で実現する技術の確立を目指し、故障対応時にオペレータが自らの行動を記述した作業記録を分析して、過去の故障対応の手順を可視化したワークフローを自動生成する技術を確立しました[Watanabe]。作業記録とは、故障対応時に故障の発生状況や実施作業をオペレータが自由記述したテキストデータです。大量に蓄積された作業記録は、故障対応の手順やノウハウが残された貴重な情報源ですが、人の手で書かれる自由記述のテキストデータであるため、簡単には内容の分析が出来ません。我々の技術では、(1)機械学習技術を用いてオペレータの実施した対応手順だけを抽出し、(2)記述の異なる複数の作業記録の対応手順を統合して、(3)オペレータの行動の変化点を自動で見つけ出すことで、故障時のオペレータの行動を示したワークフローを自動的に可視化できます(図1) 。

ワークフローによる故障対応手順の可視化で、多量の知識が必要かつ暗黙知であるために定型化が難しい故障対応の手順を簡単に把握できるようにします。これにより、オペレータによる迅速で的確な故障対応をサポートします。また、今後はテキストデータの記述内容の可視化技術を応用して、様々なオペレーションの効率化に向けた技術についても、研究開発を進めていく予定です。

[Watanabe] Akio Watanabe, Keisuke Ishibashi, Tsuyoshi Toyono, Tatsuaki Kimura, Keishiro Watanabe, Yoichi Matsuo, and Kohei Shiomoto, `` Workflow Extraction for Service Operation using Multiple Unstructured Trouble Tickets,” IEEE/IFIP NOMS 2016, pp. 652-658, 2016.

研究成果4-図: ワークフロー可視化の技術構成

研究成果4-図: ワークフロー可視化の技術構成

図をクリックすると、拡大図が別ウィンドウで開きます。