ページの先頭です。
コンテンツエリアはここからです。
研究開発マガジン

[キーワードでわかる先端技術:vol.4]「探す」ありそうでなかった21世紀らしいメディア検索技術

「聞いたまま」や「見たまま」を探せるメディア検索

街角で流れていた曲名を知りたいとか、ドラマの舞台となっていた温泉街がどこにあるとかが気になるとき、みなさんはどうしますか?
人に聞くにも、音楽や映像は説明が難しいし、ネットで検索しようにも、どんなキーワードで探せばよいのか困ってしまう。そんな言葉に置き換えて探すことが難しい音や映像を、その形態のまま問い合わせに使って、その音や映像のタイトルなどといった関連情報を検索することを目的としたのが、今回紹介するロバストメディア探索技術です。

その特長は、なんといっても音や映像といったメディアのままで検索できるというダイレクト感に尽きます。言葉や記号に置き換える必要がありません。このまったく新しい検索方法を実用レベルまで高めたのが、世界も注目するロバストメディア探索(RMS:Robust Media Search)技術。その特長はその処理速度と正確さにあります。
たとえば、加工編集されて他の音やテロップが重なっていたり、音質/画質が劣化したりなど、これまで検索が難しいとされていた加工編集された音や映像でも大丈夫。つまり、音楽や映画のように一つの作品として完成されたコンテンツを部分的に引用して二次・三次利用されていても、元のコンテンツの情報を特定できます。この対応力の高さが、RMS技術の大きな特長で、検索ツールとしての可能性の広がりに期待が高まっています。

正確でなければ役に立たない。早くなければ使えない。

実用性の高さが特長のRMS技術ですが、実現には2つの壁がありました。
その1つが、音や映像の変化への対応です。音や映像はその配信方法や保存状況に応じて圧縮されていますし、雑音や歪みが加わる場合や、加工や編集が行われる場合もあります。このような信号の様々な変化の影響をとり除くことは、従来の方法では困難を極めていました。そこでNTTは、信号の変化の影響を取り除くという考え方を捨て、信号の変化の影響をほとんど受けずに残っている情報の断片だけを用いるというアプローチをとったのです。たとえば、これはナレーションやテロップが重複している場合には、時間的にもわずかな隙間に注目することになります。このような断片的な情報からでも高精度な検索ができることは新しい発見でした。
2つめの壁は、膨大な情報量への対応です。たとえば、ネット上の音楽や映像は日々拡大を続けており、これらを瞬時に検索できるスピードが要求されています。そこでNTTは、従来のように音や映像を詳細に分析した特徴量を用いて照合するのではなく、「大雑把に」分析するというアプローチをとりました。ただし、単に大雑把にするだけでは精度が落ちてしまうので、時間の情報などを加味することにより、高速でありながら精度も高い検索を実現することができました。
このように、正確さと処理の高速化を実現した技術を搭載させることでRMS技術は実用に耐えるメディア検索ツールへと進化していったのです。

本格化するビジネスでの利用

現在、RMS技術はテレビや映画で使われている楽曲リストを自動的に作成する放送局向けのサービスとして利用されています。放送されている部分的な音を問い合わせとしてデータベースを検索することで、BGM(背景音楽)までも含めた楽曲リストが作れるのです。さらに海外からも注目を集めており、携帯電話等に音楽を聞かせて曲名を検索するサービスの主要技術として中国の電話会社で導入され、多くのユーザに利用されているところです。
また、NTTではこのRMS技術の適用範囲をさらに発展させる試みに挑戦しています。その1つがBayTSP社との共同実証実験です。BayTSP社は、インターネット上での著作物の利用状況をモニタリングするサービスで有名な米国の企業です。これまでBayTSP社では、モニタリングを主に人手で行っていましたが、動画投稿サイトなどの急拡大に伴い、この作業に限界を感じてきたというのです。
今回の実験の目的は、NTTのRMS技術によるモニタリングの自動化にあります。具体的には、動画投稿サイトやブログサイトに投稿されたファイルに対し、著作権者から委託された音楽や映像作品といったコンテンツが含まれているかチェックし、含まれているならばどのコンテンツのどの部分かを判定する作業を自動で行うということです。現在、1日約十万件ものファイルに対するチェックの自動化が確認できています。
このような技術が確立することで、インターネット上にある著作物の不正使用をチェックできるだけでなく、使用された著作物に連動した広告ビジネスも可能になるなど、ネットユーザの利便性やコンテンツ提供者のビジネスチャンスの拡大に繋がっていくと期待が高まっています。

誰もが当たり前に使える検索ツールとして

今後の取り組みとしては、同一ソースの音や映像の同定だけではなく、その音や映像が“何を表しているか”を理解して検索する、という課題に挑戦しています。例えば、音楽であればカバー曲やミキシング、ライブ録音などの違いを吸収しつつ、探したい楽曲を検索できることを目指しています。
インターネットをはじめ、音楽や映像といったメディア情報が爆発的に増えている今日、メディア検索技術はますます重要になっています。NTTはこれからもより直感的で使いやすいメディア検索技術の開発に取り組んでいきます。

NTTコミュニケーション科学基礎研究所 メディア情報研究部
フッタエリアはここからです。