平成9年11月 5日 日本電信電話株式会社 動画像中のテロップ認識技術を開発 ─映像の内容検索や一括参照が可能に─ NTTでは、カラー動画像内のテロップ文字を高速・高精度に認識する技術を開発し ました。これにより、動画像中のテロップ文字出現部分の自動インデックス付与(見出 し付け)が可能になり、その見出しを手がかりに膨大な映像情報の中から目的部分を検 索したり、映像の内容を一括して参照(ブラウジング)することができるようになりま す。 今回開発した技術は、1.動画像中のテロップ文字が出現したフレームを検出する2 .そのフレームの中からテロップ文字の領域を切り出す3.その領域内の文字レイアウ トを解析して文字列を認識する、という3つの要素から構成されています。 NTTでは今後も、開発したアルゴリズムの認識精度向上と映像を効率的に見たり検 索するアプリケーションの創造を目指して研究開発を進めていく予定です。 <開発の背景> 情報は必要な時に必要な部分を取り出せることにより、情報としての意味を持ちます 。近年、テレビやビデオに加え、マルチメディアの進展に伴って多くの情報が映像の形 式で発信されるようになり、膨大な映像情報の中から必要な部分を探し出すことはもは や人間の手作業では追いつけなくなってきています。そこで、これを自動的に行う技術 の登場が求められていました。 ニュース映像や情報提供型ビデオ映像では、テロップ文字が要所ごとに使用されてお り、これが内容検索の手がかりとして利用可能です。しかし「テロップ文字」は、背景 と同様に映像の一部として作り込まれているため、テロップの出ている映像に新たな処 理を施して文字部分のみを取り出し、何が書かれているか認識する技術が必要になりま す。この点で、従来の文字認識技術は、無地の背景に書かれた文字を対象としたものが 大半であるため、カラーの背景がある文字を認識するには精度や処理速度に問題があっ て、動画像中のテロップ文字を自動認識させることは困難とされてきました。 <技術のポイント> 今回NTTでは、次の3つの技術を開発することにより、動画像中のテロップ文字を自 動認識させることに成功しました。 1.文字の出現したフレームの検出技術 ─背景の変化に拘わらず、文字の出現したフレームを検出─ 動画像は1秒間に30枚切り替わるフレーム(静止画像)から成っています。したが って、時間的に隣り合うフレーム同士では画像の内容に大きな差がないといえます。文 字出現フレームの検出は、この性質を利用して、輝度分布差分*1とエッジ密集度*2 によって行います。 テロップは画像内で特定の輝度(明るさ)を持つエリアですから、一連のフレーム群 の中で、あるフレームで著しく輝度分布が変わりその後しばらく変化しない場合、その フレームにはテロップが現れた可能性が高いと判断できます。 しかし、これだけだと映像のカット点(画面の切り替わりフレーム)もテロップ出現 フレームとして検出されてしまいます。それを防ぐためにエッジ密集度の変化を判断基 準に加えています。テロップ文字は、太さを持った線の集合と見なせますから、その部 分は背景に対する縦・横のエッジ(輝度の境界線)が集中することになります。フレー ムごとにこのエッジ密集度を調べ、直前のフレームから値が大きく上昇するフレームに はテロップが出現したと判断します。 2.文字領域の検出技術 −カラー画像から、文字部分だけを高速に抽出− テロップが出現したフレームから、テロップ文字のエリアを特定する技術です。ここ で利用するのがカラーセグメンテーションと形状・動きの特徴です。テロップ文字は同 じ色で作られていますから、まずフレーム内を同じ色のグループごとに分け(セグメン テーション)ます。そして、背景は動くがテロップは動かない、画面いっぱいになるほ どの大文字のテロップはない、画面の端にかかって切れてしまうテロップはない、とい う原則を利用し、その条件を満たす色エリアをテロップが出ているエリアとして判断し ます。 3.文字領域のレイアウトを解析して文字を認識する技術 −縦書き・横書き混在テロップからでも文字列を検出して認識− 文字の領域を検出したあと、同じ色の文字群は1つのテロップを構成する、互いに近 接している文字群は1つのテロップを構成する、という性質を利用して、その領域内の 文字群を分けたりくくったりしてテロップの正しい方向を推定して文字列を再構築しま す。ただし、たとえば料理番組のレシピのように縦横に同じ色のテロップ文字列が並ぶ 場合は、縦横両方の文字列をテロップ文としてピックアップし、後工程で日本語辞書と 参照して正しい可能性が高いものを残します。また、文と同じ色で文字列の近くに残存 するノイズ成分は、テロップ文字列は直線上に配置され、その高さも一定である、とい う原則に従って取り除きます。文字認識技術そのものは,これまでNTTが開発してき た技術を準用しています。 <今後の展開> 開発した技術を評価した結果、テロップ情報の自動インデクシング用途に適用できる だけの性能が確認されました。NTTでは、この技術を利用したVODニュースヘッド ライン提供サービスなどのアプリケーションの創造、また、処理速度の向上やフリップ ・看板など、実際に映像として撮影された文字情報にも適用できるよう本技術のリファ イン、さらに、これを元にしてフレーム単位のインデックスを統合して映像の文脈抽出 を可能とする技術の開発などの研究開発を進めていく予定です。 <用語解説> *1)輝度分布差分 輝度分布とは、フレーム画像の中に明るい部分や暗い部分などがそれぞれどのくらい の割合で存在するかを示すもので、2枚のフレームの間でこの輝度分布の違いを計算し たものが輝度分布差分です. *2)エッジ密集度 エッジとは、画像中で明るさや色が急激に変化する点のことで、主に物体や文字の輪 郭部分に現れます。テロップ文字がある部分では、文字の輪郭部分からエッジが密集し て検出されます。従って,このエッジが画像上においてどの程度密集して存在している かを調べることによって、テロップ文字が存在するかどうかを判定することができます。
