後段タスクの精度向上のためのマルチレベルな分かち書きの最適化

DOI

書誌事項

タイトル別名
  • Optimization of Multi-level Tokenization for Improving Accuracy of Downstream Tasks

抄録

<p>分かち書きは,後段タスクの精度に影響を与えることが知られている.平岡らは,後段タスクの精度を向上させるように分かち書きを最適化する手法であるoptok4atを提案した.しかし,optok4atで用いられている分かち書きモデルは一種類であり,教師なし学習によって語彙が形成されるため,低頻度だが重要であるフレーズを見落としてしまい,十分に精度を発揮できない懸念がある.本稿では,後段タスクの精度向上を目的とした,マルチレベルな分かち書きの最適化手法を提案する.提案手法は,異なる語彙を持つ2つの分かち書きモデルの出力を連結して後段モデルに入力する.教師なし学習による分かち書きモデルだけでなく,頻出のフレーズを語彙に含む辞書ベースの分かち書きモデルを併用することで,後段モデルの精度向上を試みる.いくつかのテキスト分類タスクにおける実験によって,提案手法はフレーズを分かち書きするにもかかわらず,精度の向上に寄与しないことが確認された.</p>

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ