Low latency and sentiment-aware response generation for LLM-based Spoken Dialogue Systems

KANEKO Takumasa, INABA Michimasa

doi:10.11517/jsaislud.99.0_131

Bibliographic Information

Other Title

LLMに基づく音声対話システムのための非言語情報を活用したユーザ心情の考慮とリアルタイム性の向上

Abstract

<p>ChatGPTのような大規模言語モデル(LLM)を用いた対話システムは，テキストベースの対話において大きな進歩を遂げた．しかし，LLMを用いて音声対話システムを構築する場合，いくつか問題が生じる．まず，ほとんどの LLMがテキスト情報しか扱えず，ユーザの非言語情報(音声感情，表情感情，動作)を扱うことができない点が挙げられる．また，LLMによる応答生成は時間がかかるため，ユーザの発話終了からシステムの発話開始までに時間を要したり，自然な話者交代が困難になるという問題がある．そこで本研究ではユーザの対話中の非言語情報を音声および画像から取得し，プロンプトに追加することで非言語情報を考慮した応答を生成する手法を提案する．また，ユーザ発話が途中の段階で応答生成を開始することで，応答遅延を低減する手法を提案する．その際にも非言語情報を活用し，ユーザ発話の一部分からだけでも適切な応答を生成する．</p>

Journal

JSAI Technical Report, SIG-SLUD

JSAI Technical Report, SIG-SLUD 99 (0), 131-133, 2023-12-04

The Japanese Society for Artificial Intelligence

Details 詳細情報について

CRID: 1390016880936406272

DOI: 10.11517/jsaislud.99.0_131

ISSN: 24364576; 09185682

Text Lang: ja

Data Source

JaLC

Abstract License Flag: Allowed

Export