-
- 井上 昂治
- 京都大学
-
- Lala Divesh
- 京都大学
-
- Skantze Gabriel
- スウェーデン王立工科大学
-
- 河原 達也
- 京都大学
書誌事項
- タイトル別名
-
- Real-time Backchannel Prediction Using Voice Activity Projection
- Voice Activity Projection モデル オ モチイタ リアルタイム アイズチ ヨソク
この論文をさがす
説明
<p>人間どうしの対話において「うん」や「へー」といった短い反応(相槌)は、対話を円滑で双方向に進行させる役割を果たしている。このような対話をシステムに実現するためには、高精度な相槌予測モデルが必要である。本研究では、Voice Activity Projection(VAP)モデルを用いたリアルタイム相槌予測を提案する。提案モデルは相槌のタイミングと種類をフレーム単位でリアルタイムに予測することができる。モデルの学習では、まず、より規模の大きい汎用的な対話データでVAPモデルを事前学習し、次に相槌予測に特化したデータセットでファインチューニングを行う。実験では、提案手法はタイミング予測と種類予測の両タスクにおいて、比較手法を上回る性能を示し、リアルタイム条件においても十分な予測精度を示した。</p>
収録刊行物
-
- 人工知能学会研究会資料 言語・音声理解と対話処理研究会
-
人工知能学会研究会資料 言語・音声理解と対話処理研究会 102 (0), 229-234, 2024-11-14
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390020697875012608
-
- NII書誌ID
- AN10432166
-
- ISSN
- 24364576
- 09185682
-
- NDL書誌ID
- 033830210
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- NDLサーチ
-
- 抄録ライセンスフラグ
- 使用可