後段タスクの精度向上のためのマルチレベルな分かち書きの最適化

小田倉 史麿, 若林 啓

doi:10.11517/pjsai.jsai2022.0_3c4gs603

書誌事項

タイトル別名

Optimization of Multi-level Tokenization for Improving Accuracy of Downstream Tasks

抄録

<p>分かち書きは，後段タスクの精度に影響を与えることが知られている．平岡らは，後段タスクの精度を向上させるように分かち書きを最適化する手法であるoptok4atを提案した．しかし，optok4atで用いられている分かち書きモデルは一種類であり，教師なし学習によって語彙が形成されるため，低頻度だが重要であるフレーズを見落としてしまい，十分に精度を発揮できない懸念がある．本稿では，後段タスクの精度向上を目的とした，マルチレベルな分かち書きの最適化手法を提案する．提案手法は，異なる語彙を持つ2つの分かち書きモデルの出力を連結して後段モデルに入力する．教師なし学習による分かち書きモデルだけでなく，頻出のフレーズを語彙に含む辞書ベースの分かち書きモデルを併用することで，後段モデルの精度向上を試みる．いくつかのテキスト分類タスクにおける実験によって，提案手法はフレーズを分かち書きするにもかかわらず，精度の向上に寄与しないことが確認された．</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2022 (0), 3C4GS603-3C4GS603, 2022

一般社団法人人工知能学会

キーワード

詳細情報詳細情報について

CRID: 1390011231105204352

DOI: 10.11517/pjsai.jsai2022.0_3c4gs603

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用不可

後段タスクの精度向上のためのマルチレベルな分かち書きの最適化

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

後段タスクの精度向上のためのマルチレベルな分かち書きの最適化

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について