Real-time Backchannel Prediction Using Voice Activity Projection

INOUE Koji, LALA Divesh, SKANTZE Gabriel, KAWAHARA Tatsuya

doi:10.11517/jsaislud.102.0_229

Real-time Backchannel Prediction Using Voice Activity Projection

DOI Web Site

INOUE Koji

Kyoto Univerisy
LALA Divesh

Kyoto Univerisy
SKANTZE Gabriel

KTH Royal Institute of Technology
KAWAHARA Tatsuya

Kyoto Univerisy

Bibliographic Information

Other Title

Voice Activity Projectionモデルを用いたリアルタイム相槌予測
Voice Activity Projection モデルオモチイタリアルタイムアイズチヨソク

Search this article

Description

<p>人間どうしの対話において「うん」や「へー」といった短い反応（相槌）は、対話を円滑で双方向に進行させる役割を果たしている。このような対話をシステムに実現するためには、高精度な相槌予測モデルが必要である。本研究では、Voice Activity Projection（VAP）モデルを用いたリアルタイム相槌予測を提案する。提案モデルは相槌のタイミングと種類をフレーム単位でリアルタイムに予測することができる。モデルの学習では、まず、より規模の大きい汎用的な対話データでVAPモデルを事前学習し、次に相槌予測に特化したデータセットでファインチューニングを行う。実験では、提案手法はタイミング予測と種類予測の両タスクにおいて、比較手法を上回る性能を示し、リアルタイム条件においても十分な予測精度を示した。</p>

Journal

JSAI Technical Report, SIG-SLUD

JSAI Technical Report, SIG-SLUD 102 (0), 229-234, 2024-11-14

The Japanese Society for Artificial Intelligence

Details 詳細情報について

CRID

1390020697875012608
NII Book ID

AN10432166
DOI

10.11517/jsaislud.102.0_229
ISSN

24364576

09185682
NDL BIB ID

033830210
Web Site

http://id.ndl.go.jp/bib/033830210

https://ndlsearch.ndl.go.jp/books/R000000004-I033830210
Text Lang

ja
Data Source
- JaLC
- NDL Search
Abstract License Flag
Allowed

Real-time Backchannel Prediction Using Voice Activity Projection

Bibliographic Information

Search this article

Description

Journal

Details 詳細情報について

Export

Report a problem