マルチモーダル情報に基づく多様な相槌の予測の検討

抄録

対話において聞き手の相槌は,重要な要素の一つである.適切な相槌を打つことで,対話を円滑に進めることが可能である.これより,対話型エージェントが適切な相槌を打つことができるようになると,ユーザとの円滑な対話が実現すると考えられる.近年,自然な相槌を打つ対話型エージェントを実現するための研究は多く行われている.これらの研究では,マルチモーダル情報に基づいて相槌の発生やタイミングの予測,数種類(反応,表現,笑いなど)の相槌の生成を行っている.しかし,話し手の発話時のマルチモーダル情報から聞き手の多様な相槌を生成できるのか明らかでない.そこで本稿では対話における話し手のマルチモーダル情報から聞き手の多様な相槌の生成ができるのか明らかにするための検討を行う.具体的には話し手の発話時のマルチモーダル情報と聞き手の相槌からなるコーパスを作成し,機械学習を用いて話し手の発話から聞き手の相槌を予測する.先行研究では聞き手の相槌が行われている場合のみに着目したが,本稿では聞き手の相槌が行われていない場合も考慮して相槌の予測を行った.その結果,特徴量としてモダリティを単体で用いるよりも,複数用いることで推定性能が向上することを確認できた.

収録刊行物

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ