テキスト・音声・動画生成を活用した低コストでスケーラブルなリアルタイム音声対話

沢田 慶, 藤田 達也, 三井 健太郎, 法野 行哉, 若月 駿尭, 石川 翔, オーカール ターレック, 陳 心琪

doi:10.11517/jsaislud.102.0_157

書誌事項

タイトル別名

Cost-Effective and Scalable Real-Time Spoken Dialogue with Text, Speech, and Video Generation

説明

<p>本デモでは、テキスト・音声・動画生成技術を活用した、低コストかつスケーラブルなリアルタイム音声対話システムを紹介する。本システムのテキスト生成には、パラメータ数が少ない大規模言語モデルを使用し、事後学習や推論コストを低減しながら、検索拡張生成にも対応して知識データベースを活用する。音声・動画生成については、スマートフォンで撮影した6分程度の動画から音声と動画アバターのAIモデルが学習でき、リアルタイムストリーミングを通じた動画再生により音声対話の応答を実現する。生成プロセスは比較的安価なサーバで処理でき、クライアントからの要求が多い場合には容易にスケール可能である。このように本システムは、データ作成コストや計算リソースを最小限に抑えつつ、効果的かつ魅力的な音声対話体験の提供を目指して設計されており、さまざまな場面での活用が期待される。</p>

収録刊行物

人工知能学会研究会資料言語・音声理解と対話処理研究会

人工知能学会研究会資料言語・音声理解と対話処理研究会 102 (0), 157-157, 2024-11-14

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390583647828423936

DOI: 10.11517/jsaislud.102.0_157

ISSN: 24364576; 09185682

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用可

書き出し

問題の指摘