LLMに基づく音声対話システムのための非言語情報を活用したユーザ心情の考慮とリアルタイム性の向上

金子 拓正, 稲葉 通将

doi:10.11517/jsaislud.99.0_131

書誌事項

タイトル別名

Low latency and sentiment-aware response generation for LLM-based Spoken Dialogue Systems

抄録

<p>ChatGPTのような大規模言語モデル(LLM)を用いた対話システムは，テキストベースの対話において大きな進歩を遂げた．しかし，LLMを用いて音声対話システムを構築する場合，いくつか問題が生じる．まず，ほとんどの LLMがテキスト情報しか扱えず，ユーザの非言語情報(音声感情，表情感情，動作)を扱うことができない点が挙げられる．また，LLMによる応答生成は時間がかかるため，ユーザの発話終了からシステムの発話開始までに時間を要したり，自然な話者交代が困難になるという問題がある．そこで本研究ではユーザの対話中の非言語情報を音声および画像から取得し，プロンプトに追加することで非言語情報を考慮した応答を生成する手法を提案する．また，ユーザ発話が途中の段階で応答生成を開始することで，応答遅延を低減する手法を提案する．その際にも非言語情報を活用し，ユーザ発話の一部分からだけでも適切な応答を生成する．</p>

収録刊行物

人工知能学会研究会資料言語・音声理解と対話処理研究会

人工知能学会研究会資料言語・音声理解と対話処理研究会 99 (0), 131-133, 2023-12-04

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390016880936406272

DOI: 10.11517/jsaislud.99.0_131

ISSN: 24364576; 09185682

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用可

LLMに基づく音声対話システムのための非言語情報を活用したユーザ心情の考慮とリアルタイム性の向上

書誌事項

抄録

収録刊行物

詳細情報詳細情報について

書き出し

問題の指摘

LLMに基づく音声対話システムのための非言語情報を活用したユーザ心情の考慮とリアルタイム性の向上

書誌事項

抄録

収録刊行物

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について