Voice Activity Projectionモデルを用いたリアルタイム相槌予測

井上 昂治, Lala Divesh, Skantze Gabriel, 河原 達也

doi:10.11517/jsaislud.102.0_229

書誌事項

タイトル別名

Real-time Backchannel Prediction Using Voice Activity Projection
Voice Activity Projection モデルオモチイタリアルタイムアイズチヨソク

この論文をさがす

説明

<p>人間どうしの対話において「うん」や「へー」といった短い反応（相槌）は、対話を円滑で双方向に進行させる役割を果たしている。このような対話をシステムに実現するためには、高精度な相槌予測モデルが必要である。本研究では、Voice Activity Projection（VAP）モデルを用いたリアルタイム相槌予測を提案する。提案モデルは相槌のタイミングと種類をフレーム単位でリアルタイムに予測することができる。モデルの学習では、まず、より規模の大きい汎用的な対話データでVAPモデルを事前学習し、次に相槌予測に特化したデータセットでファインチューニングを行う。実験では、提案手法はタイミング予測と種類予測の両タスクにおいて、比較手法を上回る性能を示し、リアルタイム条件においても十分な予測精度を示した。</p>

収録刊行物

人工知能学会研究会資料言語・音声理解と対話処理研究会

人工知能学会研究会資料言語・音声理解と対話処理研究会 102 (0), 229-234, 2024-11-14

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390020697875012608

NII書誌ID: AN10432166

DOI: 10.11517/jsaislud.102.0_229

ISSN: 24364576; 09185682

NDL書誌ID: 033830210

Web Site: http://id.ndl.go.jp/bib/033830210; https://ndlsearch.ndl.go.jp/books/R000000004-I033830210

本文言語コード: ja

データソース種別

JaLC
NDLサーチ

抄録ライセンスフラグ: 使用可

書き出し

問題の指摘