LLMに基づく音声対話システムのための非言語情報を活用したユーザ心情の考慮とリアルタイム性の向上

DOI

書誌事項

タイトル別名
  • Low latency and sentiment-aware response generation for LLM-based Spoken Dialogue Systems

抄録

<p>ChatGPTのような大規模言語モデル(LLM)を用いた対話システムは,テキストベースの対話において大きな進歩を遂げた.しかし,LLMを用いて音声対話システムを構築する場合,いくつか問題が生じる.まず,ほとんどの LLMがテキスト情報しか扱えず,ユーザの非言語情報(音声感情,表情感情,動作)を扱うことができない点が挙げられる.また,LLMによる応答生成は時間がかかるため,ユーザの発話終了からシステムの発話開始までに時間を要したり,自然な話者交代が困難になるという問題がある.そこで本研究ではユーザの対話中の非言語情報を音声および画像から取得し,プロンプトに追加することで非言語情報を考慮した応答を生成する手法を提案する.また,ユーザ発話が途中の段階で応答生成を開始することで,応答遅延を低減する手法を提案する.その際にも非言語情報を活用し,ユーザ発話の一部分からだけでも適切な応答を生成する.</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390016880936406272
  • DOI
    10.11517/jsaislud.99.0_131
  • ISSN
    24364576
    09185682
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用可

問題の指摘

ページトップへ