corevo®を活用した音声合成ソフトウェア「FutureVoice Crayon」に
国内で初めて深層学習を適用し商用販売を開始
人の声と遜色ない自然な音声でナレーションや書籍の読み上げを実現
2017年12月05日
NTTテクノクロス株式会社(以下、NTTテクノクロス 本社:東京都港区港南、代表取締役社長:串間和彦)は、音声合成ソフトウェア「FutureVoice Crayon」をバージョンアップし、2017年12月5日から販売します。NTTメディアインテリジェンス研究所が開発した深層学習(DNN*1)を活用した最新の音声合成技術と40年以上蓄積した音声のデータベースにより、少量の音声データから人の声と遜色ない*2肉声感・明瞭感のある自然な音声を作成できるようになりました。
背景
コンタクトセンターでの自動音声案内や、音声対話サービスやロボットによる受付案内など、音声合成技術の活用シーンが広がっています。音声合成への期待が高まる一方、従来の技術では、より人の声に近づけ、さらに声のバリエーションを増やすためには、費用負担が大きいことが課題でした。
このような課題を解決するために、国内で初めて音声合成に深層学習を活用することで、少量の音声データから声のバリエーションを簡易に増やせると同時に、従来の音声合成技術よりも遥かに自然な声を実現しました。その結果、今まで音声合成では置き換えが困難であったナレーションやガイダンス作成・電子書籍の読み上げなど、大幅な用途拡大が見込めます。
特長
(1)業界最高水準の高品質な音声合成を実現
イントネーションや声質の元となる既存の大量の音声データベースを利用して、DNNを活用した音声合成をすることで、今まで困難であった声の特徴を忠実に再現した自然な音声を作成できるようになりました。
<音声サンプル>
女性1
女性2
女性3
男性1
男性2
「男性2」は、声優の梶裕貴さんの声を音声合成で再現しています。
声優の梶裕貴さんの声を、音声合成のデータベースとして構築し、艶のある渋い声の特徴を忠実に再現しています。
梶裕貴さん(写真右)のプロフィール:
http://vims.co.jp/talent_profile_detail.php?id=7
<試聴体験サイト>
上記、音声サンプルとは異なる音声を自由に合成し、試聴できます。
http://www.futurevoice.jp/
(2)少ない音声データから音声合成を実現
既存の大量の音声データベースと深層学習を活用し、話者が違う音声のデータから読み方やアクセントを補うことで、所望の話者の少量の音声データからその話者の自然な音声合成を実現します。
FutureVoice Crayonのこれまでの実績
(1)NTTドコモの対話サービス「おしゃべり」
https://www.nttdocomo.co.jp/service/oshaberi/index.html
スマホやタブレットに話しかけるだけで、おすすめのレシピをご提案!また家族への伝言機能など、便利なサービスが対話するだけで簡単にご利用になれます。
(2)黒柳徹子さんのアンドロイド「totto」
42年にわたる「徹子の部屋」の会話データをもとに黒柳徹子さんの声を音声合成のデータベースとして構築し、アンドロイド「totto」の声として使われています。
価格(税別)
実際の利用環境などにより構成や価格が変わるため、詳細はお問い合わせください。
用語解説・注釈
*1: DNN(Deep Neural Network)
機械学習の一種であるNeural Networkの階層を深くしたアルゴリズムで、画像認識や音声認識等の分野で活用されている。
*2:人の声と遜色ない
新語などの読みやアクセントが登録されていない語彙が含まれると、自然な音声が損なわれる場合がある。
*「DNNを使った音声合成技術」はNTTグループのAI「corevo®」を構成する技術です。
*「corevo®」は日本電信電話株式会社の商標です。(http://www.ntt.co.jp/corevo/)
*「FutureVoice」はNTTテクノクロス株式会社の登録商標です。
* 記載されている商品名・会社名などの固有名詞は一般に該当する会社もしくは組織の商標または登録商標です。
NTTテクノクロス株式会社概要
NTTテクノクロスは、NTT研究所の最先端技術を中核に、国内外の優れた商材を豊富な実績とノウハウで掛け合わせることで、お客様のビジネスシーンに最適なソリューションを創出します。時代に先駆けたソリューションにより、豊かな未来社会の実現に貢献し続けます。(https://www.ntt-tx.co.jp/)