リアルタイム型大規模分散データ分析基盤技術:Jubatus

技術領域
情報流通プラットフォーム技術
キーワード
  • Big Data
  • 分散処理
  • 機械学習
組織名
NTT情報流通プラットフォーム研究所

印刷用PDF (1,144KB)


概要

Hadoop*1をはじめとするビッグデータ処理への注目が高まっていますが、従来技術はバッチ処理のためリアルタイム分析への対応が困難でした。Jubatus*2は、「大量データ」を「常に素早く」 「深く分析」することを狙った分析基盤技術です。大量のデータを複数のサーバに振り分け並列かつ逐次的に処理させ、複数のサーバ間で緩やかに途中処理結果を共有することにより、サーバ間の通信オーバーヘッドの削減や安定性の向上を実現し、高いリアルタイム性と解析精度を確保しています。現在オープンソースとして一般公開しています。

特徴

  • リアルタイム:データをためることなく瞬時に処理
  • 大規模(高スケーラビリティ):サーバの追加台数に比例した性能向上
  • 深い分析:機械学習など高度な解析アルゴリズムに対応
  • プラガブル構成:解析エンジン、データストレージ方式を柔軟に組み換え可能

利用シーン

  • ソーシャルネットワーク、ブログより評判分析を行うマーケティングツール
  • センサ情報、ネットワークデータからの異常検知、需要予測
  • ユーザの利用動向からのリアルタイムな情報推薦
  • 金融情報からの市場・経済・株価予測
  • *1 Hadoop: オープンソースの大規模データ処理基盤(http://hadoop.apache.org/)
  • *2 Jubatus: 公開サイト(http://jubat.us/)

図版