音声合成ソフトウェア「FutureVoice Crayon」の新バージョン
少量の音声から、人に近い感情表現ができる音声を合成
2020年02月19日
NTTテクノクロス株式会社
NTTテクノクロス株式会社(以下、NTTテクノクロス 本社:東京都港区芝浦、代表取締役社長:串間和彦)は、音声合成ソフトウェア「FutureVoice Crayon(フューチャーボイス クレヨン)」の新バージョンを2019年9月から提供を開始しています。新バージョンはファーストユーザーとして、株式会社テレビ朝日(以下、テレビ朝日)の「AI×CGアナウンサー 花里ゆいな*1」の声に利用されています。
背景
合成音声は一般的にナレーションのように単調な音声ですが、CGやロボットなどの声として利用する場合は、人に近い感情表現ができる音声が期待されています。さらにCGやロボットは人と会話をする機会が多く、唇の動きや身体の動作と連動させた自然な発話が求められます。
NTTテクノクロスは、音声合成ソフトウェアであるFutureVoice Crayonをバージョンアップさせることで、このような要望に対応しました。
特長
(1)少量の音声からリアルな感情表現ができる合成音声を作成
音声合成における感情表現は、話速・抑揚・音の高さなどの音声合成パラメーターを変更することで作成していましたが、機械音の印象が強くなるなど、期待通りの感情を表現した音声を作成することは困難でした。人の悲しい声や楽しい声など感情ごとに音声を収録しモデル化することも可能ですが、作成のコストや期間がかかることが課題になります。このような課題を解決するために、深層学習(DNN*2)を活用することで、感情を込めた少量の音声から、より人に近い、肉声感のある感情表現が可能な合成音声を提供します。
数分程度の音声から合成した感情音声
(2)複数人の音声から理想の声や平均的な声を生成
人物やキャラクターなどの複数の音声を利用して、新たな声を作り出すことができます。これにより、特定の人の声の権利に依存せず、実在しない独自の声や平均的な声を作り出すことができます。
(3)細かい動きやさまざまな表情に音声を連動できる
合成音声における発話情報(読み・時間)を出力でき、CGやロボットの動作と連動できるようにしました。唇や身体の動きと、合成音声の発話タイミングをより正確に同期させることができるため、自然な発話を可能にします。
導入事例
テレビ朝日が2020年2月10日深夜放送の地上波インフォメーション番組「CGアナウンサーの番組ニュース」に出演した「AI×CGアナウンサー 花里ゆいな」にFutureVoice Crayonの新バージョンで作成した合成音声が利用されています。
(1)ニュースの内容に応じて、通常・明るい・暗いなど感情を込めた読み上げが可能
(2)複数人の女性アナウンサーの声から新たな声を作成
(3)発話タイミングとCGアナウンサーの唇の動きを連動し、自然な発話を実現
価格(税別)
実際の利用環境などにより構成や価格が変わるため、詳細はお問い合わせください。
FutureVoice Crayonとは
NTTメディアインテリジェンス研究所が開発した深層学習(DNN)を活用した最新の音声合成技術をもとに、少量の音声データから人の声と遜色ない肉声感・明瞭感のある自然な音声を合成するソフトウェア。
用語解説・注釈
*1:AI×CGアナウンサー 花里ゆいな
テレビ朝日の複数の女性アナウンサーの声を合成して作成されたCGのアナウンサー。
*2:DNN
Deep Neural Networkの略。機械学習の一種であるNeural Networkの階層を深くしたアルゴリズムで、画像認識や音声認識などの分野で活用されている。
*「FutureVoice」はNTTテクノクロス株式会社の登録商標です。
*「FutureVoice」はNTTグループのAI「corevo®」の音声合成技術を活用したサービスの1つです。
* corevo®は日本電信電話株式会社の登録商標です。(http://www.ntt.co.jp/corevo/)
* 記載されている商品名・会社名などの固有名詞は一般に該当する会社もしくは組織の商標または登録商標です。
NTTテクノクロス株式会社概要
NTTテクノクロスは、NTT研究所の最先端技術を中核に、国内外の優れた商材を豊富な実績とノウハウで掛け合わせることで、お客様のビジネスシーンに最適なソリューションを創出します。時代に先駆けたソリューションにより、豊かな未来社会の実現に貢献し続けます。(https://www.ntt-tx.co.jp/)