SpeechRec

音声と映像から
様々な情報を高精度に解析

～構築が簡単なマルチメディアAI処理APIサーバ～

製品の特長を見る

超軽量AIで低コストに
AI処理を実現

GPU不要で初期費用を大幅カット

1つのCPUで複数のAI処理ができるほど軽量

FEATURE音声/映像処理をオールインワンで

NTT研究所の『次世代メディア処理AI「MediaGnosis®」』を用いた、
音声、映像など複数メディアのAI処理を統合的に扱えるAPIサーバです。
SpeechRecを活用した「MediaGnosis®」のデモをこちらでお試しいただけます。

Point 1
信頼の国産技術と豊富な実績

NTT研究所の最新技術

50年以上続くNTT研究所技術を採用。
多くの国際学会に採択された最新の技術

国産のAIエンジン

純国産(NTT研究所)のAIエンジンを採用。
安心してご利用可能

コンタクトセンターへの豊富な実績

IVRやコールセンター会話など、
コンタクトセンター領域に実績豊富

Point 2
オールインワンで使える様々な機能

重なった声をテキスト化

複数人の重なり合った会話音声を聞き分け、
別々の人の発話としてテキスト化

> 複数話者音声認識とは

様々な情報を推定

感情・性別・年齢・疑問文など、
テキスト化以外の様々な情報を推定

> 機能一覧はこちら

映像の解析機能

音声だけでなく映像の解析も可能。
顔の感情・年齢・性別などを推定

> 映像機能一覧はこちら

Point 3
モデルと構築環境を柔軟にカスタマイズ

カスタマイズ可能

チューニングや単語登録で、
専門用語や時事用語を認識可能

> チューニングとは

クラウドでも構築可能

IaaS環境でも構築可能
AWSでの構築実績あり

> クラウドの構築例

セキュアに構築可能

オンプレミス、プライベートクラウドなど
ご希望の環境で簡単に構築可能

> オンプレミスの構築例

CASE様々なシーンでの音声や映像データの活用

録音・録画が手軽になり、会話データや映像データを活用できるシーンが増えています。
AIを活用して新しいスタイルを作りませんか。

対面会話の記録に

コールセンターの接客対応に

対面営業の応対品質確認に

対話ロボットの応対に

対面会話ケース

まずは見えるデータに

記録する余裕はないけれど覚えておきたい。
録音データはあるけれど聞き返すのは大変。

音声データに対応するテキストデータを作成。
同じ人の発言を区別しておくと、確認/検索が容易です。

利用機能例

コールセンターケース

通話記録やカスハラ対策に

専門用語もちゃんと記録したい。
カスハラ対策を行いたい。

専門用語を登録してテキスト化。
感情の推定結果からカスハラ検知に活用。

利用機能例

AIロールプレイングシーン

感情推定で新たな気づきを

発言内容に問題はないはずなのに、
何故か相手にネガティブな印象を与えてしまう。

表情や発言から応対時の感情を推定。
推定結果を応対品質のチェックに活用。

利用機能例

ロボットケース

利用者の特徴から最適な返答を

対話システムにおいて、
対象の年齢や性別で返答内容を変えたい。

質問と共に年齢や性別を推定。
対象に合わせて最適な内容をレコメンド。

利用機能例

FUNCTIONS利用シーンに合わせて機能を選択

高い精度の認識機能や推定機能を利用することができます。
WebSocketで接続し、非同期で解析結果を取得します。

音声処理

日本語音声認識

複数話者音声認識

句読点付与・フィラー除去

ユーザ辞書機能

話者ダイアライゼーション

疑問平叙推定

性別推定（音声）

年齢推定（音声）

感情推定（音声）

映像処理

性別推定（映像）

年齢推定（映像）

感情推定（映像）

表情・動作検出

SPECSスペック

SpeechRecに関するスペック情報です。

CPU	vCPU数2以上 ※ Intel®製CPUのみ。 ※ AVX2拡張命令に対応している必要があります。 ※ 使用する機能と同時接続数によって変動するため、別途お問い合わせください。
メモリ	2GB以上 ※ 使用する機能と同時接続数によって変動するため、別途お問い合わせください。
システム空き容量	4GB以上 ※ 使用する機能と同時接続数によって変動するため、別途お問い合わせください。
動作環境	コンテナ化プラットフォーム（Docker®）が動作する環境が必要です。
通信プロトコル	HTTP/1.1（WebSocket） ※ SSL/TLSの終端は上位の機器やサービスで行ってください。

PRODUCTSpeechRecを活用した製品

SpeechRecを活用したNTTテクノクロスの製品ラインナップです。

ForeSight Voice Mining

金融・通信業界を中心に5.6万席以上の豊富な導入実績があるコールセンター向けAIソリューションです。

活用事例

通話内容のテキスト化

> 製品HPはこちら

CTBASE/AgentProSMART

セキュアな顧客管理と質の高い応対をサポートできる、コールセンター向けCRMシステムです。

活用事例

通話内容のテキスト化

> 製品HPはこちら

HM-neo

大手企業向けシェアNo.1※、30年以上選ばれ続ける健診結果やストレスチェックなどの健康情報を一元管理するシステムです。

活用事例

面談内容のテキスト化

> 製品HPはこちら

VoiceSnap

オンプレミス環境対応で完結するセキュアかつ高精度の文字起こしを実現したDX化支援ソリューションです。

活用事例

保存音声のテキスト化

> 製品HPはこちら

※ デロイトトーマツミック経済研究所株式会社　「法人向けヘルスケアソリューション市場の実態と展望【2024年度版】」
　健康管理ソリューション市場における従業員規模3000名以上の大手企業による売上高

PRICE料金

同時接続数単位の年間ライセンスでご提供します。
ご利用シーンに合わせて機能一覧に記載の機能を組み合わせて算出します。
詳細はお問い合わせください。

NEWS新着情報

2025年11月07日
お知らせ
SpeechRec Serverの新バージョン（V6.3）をリリースしました。

SpeechRecは、NTTテクノクロス株式会社の商標です。
その他会社名、製品名などの固有名詞は、一般に該当する会社もしくは組織の商標または登録商標です。

モデルチューニング

モデルチューニングをすることで、専門用語や時事用語を文脈を汲み取って認識できるようになります。
※ モデルチューニングが必要な際は別途お問い合わせください。
※ お客様で簡易的に単語登録可能な「ユーザ辞書機能」もご利用いただけます。

導入イメージ

クラウド上のサーバにSpeechRecをインストールし、お客様のアプリケーションにAPI呼出処理を追加することで、SpeechRec Server が提供する機能を利用することができます。
※ SpeechRecにはハードウェア/OS/Dockerエンジン、およびAPIの呼出元のアプリケーションなどは含まれていません。

導入イメージ

オンプレミスなど閉域環境のサーバにSpeechRecをインストールし、お客様のアプリケーションにAPI呼出処理を追加することで、SpeechRec Server が提供する機能を利用することができます。
※ SpeechRecにはハードウェア/OS/Dockerエンジン、およびAPIの呼出元のアプリケーションなどは含まれていません。