情報畑でつかまえてロゴ
本サイトは NTTテクノロスが旬の IT をキーワードに
IT 部門が今知っておきたい最新テクノロジーに関する情報をお届けするサイトです

映像配信技術の基礎

携帯電話やスマートフォン、タブレット型の情報端末でのコンテンツ視聴が一般的なものになりつつある昨今、「スマートテレビ」の普及もすぐそこだといわれています。本コラムでは「映像配信サービス」の基礎技術や新しい映像配信サービス・規格について解説します。

はじめに

2000年台前半に話題となった「放送と通信の融合」という考え方も、今や当然のものとして捉えられるようになりました。デジタルテレビだけでなく、携帯電話やスマートフォン、タブレット型の情報端末でのコンテンツ視聴が一般的なものになりつつあります。「スマートテレビ」の普及もすぐそこだといわれています。

NTTソフトウェアでは、NTT研究所の研究成果の事業への適用や、研究テーマに基づいた試作システムの開発・実証実験を行っていますが、その1つに、デジタルコンテンツサービス分野があります。

本コラムでは、その技術分野の1つである「映像配信サービス」の基礎技術について解説します。

1. 映像配信サービスを支える技術とプロトコル(概観)

1. 映像配信サービスを支える技術とプロトコル(概観)
1.1 映像配信サービスの種類
1.2 高圧縮映像符号化技術(MPEG-2 TS)
1.3 映像伝送技術

1.1 映像配信サービスの種類

一般的に、IPネットワークを利用した映像配信サービスには「IP放送」と「蓄積メディアによるコンテンツ配信」の2つがあります。たとえば、以下のようなものです。

図1:映像配信サービスの種類

「地上デジタル放送IP再送信」とは、アナログテレビ時代と同様に放送局から放送波で配信される番組を、家庭のデジタルテレビやPCで受信・再生ができるよう、中継局でリアルタイムにIP化し、配信する仕組みを指しています。

このような映像配信サービスを実現するためには、さまざまな技術を組み合わせています。それらは技術的な必要性だけでなく、事業上・権利上、また法律上の必要性によって採用されています。次節以降、それぞれの技術要素について概観します。

図2 デジタルテレビにコンテンツが届くまで

< 図2 デジタルテレビにコンテンツが届くまで >

高圧縮コンテンツ伝送技術(H.264/AVC、MPEG-2 TS)

IP放送やVODで用いられる映像圧縮フォーマットは、現在H.264/AVCが主流です。H.264/AVC(Advanced Video Coding) は、MPEG-2 Video(H.262)をベースにしたものですが、MPEG-2 Videoの2倍程度高い圧縮効率を実現しているため「高精細(HD)コンテンツ(=ハイビジョン)」を配信する際に主要な圧縮方式となりました。

ここでは高圧縮コンテンツ伝送技術の構成要素であるMPEG-2 TS について説明します。

MPEG-2 TSは、画像、音声、データ放送等の付加情報、およびそれらを連携させる制御情報を、それぞれ個別のパケットとして構成した方式で、多重化しながら送信することを前提としています。
制御情報および画像、音声等の各パケットには時刻同期情報を含んでいるため、受信した端末で同じ時間軸に基づいてコンテンツを再構成し、再生することができます。

また、実際の映像配信サービスにおいては、インターネットを含んだ比較的不安定な伝送路での利用をも考慮する必要があり、前方誤り訂正(FEC:Forward Error Correction)を含んだ構成となっています。

FEC用冗長データは、畳み込み符号とリードソロモン符号とを併用することでより確実な誤り訂正を実現することができ、さらに、誤りが発生した場合でも、受信データを再送せずにリアルタイムに誤りを訂正できます。

図3に、MPEG-2 TSのTS構成について示します。

< 図3 MPEG-2 TSの構造 >

図を拡大

MPEG-2 TSには、ProgramNumber(service_id、transport_stream_id)でグルーピングされたTSパケット群が含まれます。IP放送の場合、チャンネル番号をProgram Numberと対応させることで複数のチャンネルの番組配信を1つのTS配信内で多重化し、送信します。受信機側でもそれらを識別して個別に再構築することができます。1つのProgram_Numberには、映像・音声・データ放送・制御情報等々を表現するTSが含まれ、それらはPID(パケット識別子)というIDで識別されます。

以下に、1つの番組・コンテンツ(Program_Number)に含まれるTSの種類について示します。なお、あるTSの伝送において、どのようなProgram_Numberが送信されるかについては、PAT (Program Association Table)というTSの中で、リストを表現しています。

PSI(Program Specific Information)情報

< 同じProgram_NumberのTS群の識別情報を格納する >

  • PMT(Program Map Table): 同じProgram_NumberのTSのPID情報を格納する
  • CAT(Conditional Access Table):限定受信情報,すなわち視聴の権利情報を格納する

SI情報

< 番組表(EPG)等の付加情報を格納する >

  • EIT(Event Information Table):番組表の元となる番組構成情報テーブルを格納する
  • NIT(Network Information Table):伝送ネットワーク情報やチャンネル番号情報を格納する

映像、音声情報

< いわゆるコンテンツそのもの >

副音声の有無、3D配信やマルチビューといったコンテンツの特性に応じて、複数の映像TS、音声TSが格納することが可能

1.3 映像配信のネットワーク伝送技術

H.264/AVCとして圧縮された映像や音声情報が多重化されているMPEG2 TSパケットをIPネットワーク上で配信するには、広帯域ネットワークで伝送するための上位レイヤのプロトコルが必要です。ここでは、映像・音声情報を転送するRTP (Real-time Transport Protocol)と、その送受信を制御するRTSP(Real Time Streaming Protocol)について概説します。

なお、本章ではユニキャストであるVODサービスを例示しますが、IP放送の場合はマルチキャストでの伝送が行われます。

【RTP】映像・音声情報の転送

ペイロードにTSパケット等のメディアデータを搭載する転送プロトコルで、IP電話等の音声伝送で有名です。下位プロトコルには主にUDP(User Datagram Protocol)を用います。

たとえばIP電話では、呼制御プロトコルとしてSIP(Session Initiation Protocol)を用い、電話をかける、コールして呼び出す、通話可能な状態になる、転送する、保留する等の状態の遷移制御を行った上で、音声メディアはRTP/UDPを用いて端末間で送受する、という方式を採っています。

映像配信サービス、特にVODサービスでも同様に、その視聴者がどのコンテンツをどういった権利で視聴しようとしているか、また許可を与えるか、といった視聴以前の判断と情報送受はHTTP等の他プロトコルで行い、視聴はRTPを用いています。

【RTSP】送受信の制御

呼制御プロトコルの1種で、サーバとクライアントの間で映像配信の前段となる情報 (サーバの配信フォーマットやビットレート、端末の再生能力情報等)を交換します。また、視聴の開始、終了以外に、視聴端末から一時停止、ジャンプ再生、巻き戻し、早送り等の指示を受け、映像配信サーバを制御しそれを実現します。

図4に、VODサービスにおける、あるコンテンツをユーザが視聴するまでのシーケンス概要を示します。

なお、映像伝送品質の担保については、MPEG-2 TSやFECでの誤り訂正方式を用いたとしても、帯域制御の面では不十分です。これをカバーするため、SIP等の他プロトコルを用いたQoS制御が行われることがあります。

図4 VODサービスのシーケンス例

< 図4 VODサービスのシーケンス例 >

2. 新しい映像配信サービ

2.1 H.264の拡張(マルチビュー符号化)と3Dコンテンツ配信サービス

H.264の規格拡張の1つとして、「マルチビュー符号化(multi view coding: MVC)」があります。これは、多視点の映像を1つのストリームとして表現する方式で、H.264/AVCを拡張する形でH.264/ANNEX.Hとして規格化されました。
この方式の適用によって、視聴者による再生時の視点切り替え等も可能になり、提供できるサービスも豊かになるでしょう。また、3D映像配信もこのマルチビュー符号化によって実現することができます。

3D映像はここ数年で浸透し、ユーザが好みで3D/2Dを選択できるよう、両方を揃えた映画・コンテンツは珍しくありません。しかし、課題もあります。

伝送上の課題

3D映像の方式としては、右眼用・左眼用の映像をフレーム単位で切り替えて再生するフレームシーケンシャル方式と、右眼用・左眼用の映像をそれぞれ水平方向に1/2に圧縮し、左右に並べて再生するサイドバイサイド方式の2つが主な方式です。
しかし、前者は、左右それぞれで独立した映像を送信する分、2D映像よりも高帯域が必要ですし、後者は逆に、映像圧縮のため映像品質が低下してしまいます。

再生・視聴上の課題

現在普及しているディスプレイの多くは、3D用メガネの装着が必要です。最近では安価になりましたが、やはりユーザにとっては、裸眼に比べると費用の負担や、装着のわずらわしさ等があり、3D映像利用のハードルの1つとなっているでしょう。

課題の解決に向けて

3D映像配信方式については、まだ規格統一が十分ではありませんが、ITU・日本ではDpa(ARIB)等の規格団体、3D@home(SMPTE)等の業界団体によって、検討が進められています。
伝送面では、高品質な3D映像を既存帯域内で伝送するために、映像情報をメインストリームと、差分(奥行き情報:depth)のみを記述したメタ情報(disparity map)とで構成し、それらを用いて再生端末でサブストリームを生成する、といった方式について議論がなされました。
再生・視聴面でも、グラスレス3Dの技術開発と普及が進んでいます。
3D映像配信は、今後放送分野への適用も期待されており、技術・規格統一が望まれるところです。

2.2 映像配信の新しい利

パソコンやテレビで、デジタルコンテンツを楽しむだけでなく、昨今では以下のようなサービス、利用方法も一般的になりました。

(1)
街中やビル、企業内のデジタルサイネージ

かつては、デジタルサイネージといえば静的な企業広告や公共広告を流す電子看板という使い方が一般的でした。現在では、映像配信技術・規格、その他の技術との組み合わせによって、立地・気候・通行量・通行人の属性等を加味した柔軟な広告配信が可能になっています。

たとえば、サイネージ端末に取り付けられたカメラの顔認識機能によって、通行人の性別や年代を把握し、より訴求力のある商品を選び、対応する広告コンテンツを選択する等です。映像配信サーバでは、さまざまなタイプの広告コンテンツを動的に組み合わせて配信することで、柔軟性の高いサイネージシステムを実現できます。

また、災害時の緊急情報配信への対応にも期待がもたれています。SNS等他メディアとリアルタイムに連携し、避難所や水・生活用品の調達状況を共有できれば、便利というだけでなく、被災者の不安軽減にも役立つでしょう。

(2)
携帯端末でのデジタルコンテンツ視聴

携帯端末のハードウェアの進化、また配信帯域の拡大が進んだことで、よりいっそう「いつでもどこでも」映像配信サービスを楽しむ時代になりました。

端末の種類も増え、今ではスマートフォンやタブレット端末の利用も珍しくありません。

株式会社mmbiは、2012年4月からスマートフォン向け放送局「NOTTV」を開局し、「高品質・高画質の"リアルタイム型放送"と"蓄積型放送"(*1)」が携帯端末で楽しめると期待されています。
また、NTTデータでは放送局などのメディア事業者向けに、スマートフォン・タブレット端末を用いてテレビ放送とインターネットのコンテンツの連動を可能にする「ダブルスクリーンサービス」を発表しました。「いつでもどこでも」に加え、サービス同士が連携し、より豊かな表現力を獲得・実現することができます。

*1
地上デジタルテレビジョン放送等と同様「セグメント連結伝送方式によるマルチメディア放送」のうち、ダウンロード型で提供される放送のこと

最後に

このように、映像配信サービスはより身近なものとなり,基礎技術も枯れたものとなりました。 とはいえ、伝送遅延やゆらぎの発生、また帯域利用量の増大と品質担保といった、かねてからの問題に加え、技術要素の規格化の遅れ等、課題もあります。

NTTソフトウェアでは、安価な配信ネットワークの監視ツールを提案する等、課題解決にも取り組みながら、みなさんにもっとデジタルコンテンツを楽しんでいただけるよう、培った技術力を活かして開発に取り組んでいます。

連載シリーズ
テクノロジーコラム
著者プロフィール
福永 友佳
福永 友佳

NTTソフトウェア株式会社