- 【Updated on May 12, 2025】 Integration of CiNii Dissertations and CiNii Books into CiNii Research
- Trial version of CiNii Research Knowledge Graph Search feature is available on CiNii Labs
- Suspension and deletion of data provided by Nikkei BP
- Regarding the recording of “Research Data” and “Evidence Data”
Cost-Effective and Scalable Real-Time Spoken Dialogue with Text, Speech, and Video Generation
-
- SAWADA Kei
- rinna Co., Ltd.
-
- FUJITA Tatsuya
- rinna Co., Ltd.
-
- MITSUI Kentaro
- rinna Co., Ltd.
-
- HONO Yukiya
- rinna Co., Ltd.
-
- WAKATSUKI Toshiaki
- rinna Co., Ltd.
-
- ISHIKAWA Sho
- rinna Co., Ltd.
-
- AOUKAR Tarek
- rinna Co., Ltd.
-
- CHEN Xinqi
- rinna Co., Ltd.
Bibliographic Information
- Other Title
-
- テキスト・音声・動画生成を活用した低コストでスケーラブルなリアルタイム音声対話
Search this article
Description
<p>本デモでは、テキスト・音声・動画生成技術を活用した、低コストかつスケーラブルなリアルタイム音声対話システムを紹介する。本システムのテキスト生成には、パラメータ数が少ない大規模言語モデルを使用し、事後学習や推論コストを低減しながら、検索拡張生成にも対応して知識データベースを活用する。音声・動画生成については、スマートフォンで撮影した6分程度の動画から音声と動画アバターのAIモデルが学習でき、リアルタイムストリーミングを通じた動画再生により音声対話の応答を実現する。生成プロセスは比較的安価なサーバで処理でき、クライアントからの要求が多い場合には容易にスケール可能である。このように本システムは、データ作成コストや計算リソースを最小限に抑えつつ、効果的かつ魅力的な音声対話体験の提供を目指して設計されており、さまざまな場面での活用が期待される。</p>
Journal
-
- JSAI Technical Report, SIG-SLUD
-
JSAI Technical Report, SIG-SLUD 102 (0), 157-157, 2024-11-14
The Japanese Society for Artificial Intelligence
- Tweet
Details 詳細情報について
-
- CRID
- 1390583647828423936
-
- ISSN
- 24364576
- 09185682
-
- Text Lang
- ja
-
- Data Source
-
- JaLC
-
- Abstract License Flag
- Allowed