Low latency and sentiment-aware response generation for LLM-based Spoken Dialogue Systems
-
- KANEKO Takumasa
- the university of electro-communication
-
- INABA Michimasa
- the university of electro-communication
Bibliographic Information
- Other Title
-
- LLMに基づく音声対話システムのための非言語情報を活用したユーザ心情の考慮とリアルタイム性の向上
Abstract
<p>ChatGPTのような大規模言語モデル(LLM)を用いた対話システムは,テキストベースの対話において大きな進歩を遂げた.しかし,LLMを用いて音声対話システムを構築する場合,いくつか問題が生じる.まず,ほとんどの LLMがテキスト情報しか扱えず,ユーザの非言語情報(音声感情,表情感情,動作)を扱うことができない点が挙げられる.また,LLMによる応答生成は時間がかかるため,ユーザの発話終了からシステムの発話開始までに時間を要したり,自然な話者交代が困難になるという問題がある.そこで本研究ではユーザの対話中の非言語情報を音声および画像から取得し,プロンプトに追加することで非言語情報を考慮した応答を生成する手法を提案する.また,ユーザ発話が途中の段階で応答生成を開始することで,応答遅延を低減する手法を提案する.その際にも非言語情報を活用し,ユーザ発話の一部分からだけでも適切な応答を生成する.</p>
Journal
-
- JSAI Technical Report, SIG-SLUD
-
JSAI Technical Report, SIG-SLUD 99 (0), 131-133, 2023-12-04
The Japanese Society for Artificial Intelligence
- Tweet
Details 詳細情報について
-
- CRID
- 1390016880936406272
-
- ISSN
- 24364576
- 09185682
-
- Text Lang
- ja
-
- Data Source
-
- JaLC
-
- Abstract License Flag
- Allowed