事前学習コーパスの直接検索による LLM の知識獲得の構造理解

原口 大地, 田村 拓也, 矢野 太郎, 小山田 昌史

doi:10.11517/pjsai.jsai2025.0_2win534

書誌事項

タイトル別名

Disentangling Knowledge Acquisition of LLMs through Direct Corpus Exploration

説明

<p>大規模言語モデル（LLM）は事前学習を通じて膨大な知識を獲得することが知られているが，その獲得メカニズムの詳細については未だ十分な理解が得られていない．先行研究においては，学習データ内での知識の出現頻度と知識獲得の程度との間に相関関係が確認されているものの，知識の出現パターンに関する実験的検証が不十分であることや，学習データ内に存在する矛盾した知識表現の影響が適切に考慮されていないなどの課題が存在する．本研究では，これらの課題に対処するため，事前学習コーパスの体系的な分析を通じて，LLMにおける知識獲得プロセスの解明を試みた．実験の結果，学習コーパス内での知識の出現頻度が高いほど，より堅固な知識獲得が実現されることが確認された．また，コーパス内に矛盾する知識表現が存在する場合，それが知識獲得の程度に影響を及ぼすことに加え，明示的な衝突ではなく一見すると衝突に見えないような潜在的な衝突の存在が示唆された．</p>

収録刊行物

人工知能学会全国大会論文集

人工知能学会全国大会論文集 JSAI2025 (0), 2Win534-2Win534, 2025

一般社団法人人工知能学会

詳細情報詳細情報について

CRID: 1390867654670628736

DOI: 10.11517/pjsai.jsai2025.0_2win534

ISSN: 27587347

本文言語コード: ja

データソース種別

JaLC

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘