-
- INOUE Koji
- Kyoto Univerisy
-
- LALA Divesh
- Kyoto Univerisy
-
- SKANTZE Gabriel
- KTH Royal Institute of Technology
-
- KAWAHARA Tatsuya
- Kyoto Univerisy
Bibliographic Information
- Other Title
-
- Voice Activity Projectionモデルを用いたリアルタイム相槌予測
- Voice Activity Projection モデル オ モチイタ リアルタイム アイズチ ヨソク
Search this article
Description
<p>人間どうしの対話において「うん」や「へー」といった短い反応(相槌)は、対話を円滑で双方向に進行させる役割を果たしている。このような対話をシステムに実現するためには、高精度な相槌予測モデルが必要である。本研究では、Voice Activity Projection(VAP)モデルを用いたリアルタイム相槌予測を提案する。提案モデルは相槌のタイミングと種類をフレーム単位でリアルタイムに予測することができる。モデルの学習では、まず、より規模の大きい汎用的な対話データでVAPモデルを事前学習し、次に相槌予測に特化したデータセットでファインチューニングを行う。実験では、提案手法はタイミング予測と種類予測の両タスクにおいて、比較手法を上回る性能を示し、リアルタイム条件においても十分な予測精度を示した。</p>
Journal
-
- JSAI Technical Report, SIG-SLUD
-
JSAI Technical Report, SIG-SLUD 102 (0), 229-234, 2024-11-14
The Japanese Society for Artificial Intelligence
- Tweet
Details 詳細情報について
-
- CRID
- 1390020697875012608
-
- NII Book ID
- AN10432166
-
- ISSN
- 24364576
- 09185682
-
- NDL BIB ID
- 033830210
-
- Text Lang
- ja
-
- Data Source
-
- JaLC
- NDL Search
-
- Abstract License Flag
- Allowed