類語関係抽出タスクにおけるコーパス規模拡大の影響

  • 相澤
    国立情報学研究所 総合研究大学院大学

書誌事項

タイトル別名
  • On the Effect of Corpus Size in Words Similarity Calculation

この論文をさがす

説明

本稿では、タグなしテキストから類語関係を自動抽出するタスクにおいて、コーパス規模の拡大が類似度計算に与える影響を調べる。近年ではWebに代表される大規模なテキスト集合が利用可能となり、単純な手法でもコーパス規模が十分に大きければ、LSA等の従来手法と比較し得る高い性能が得られるとの報告もある。そこで本稿では、コーパスの量が質を補うのかという問題について、実際のデータに基づき調べた結果を考察とともに報告する。特に、コーパスが大規模になると、類似度の値に対する語頻度の影響が無視できない場合があることを示し、これを回避するための単純なフィルタリング法とその効果について述べる。

収録刊行物

被引用文献 (2)*注記

もっと見る

詳細情報 詳細情報について

  • CRID
    1573105976776148864
  • NII論文ID
    110004824264
  • NII書誌ID
    AN10115061
  • 本文言語コード
    ja
  • データソース種別
    • CiNii Articles

問題の指摘

ページトップへ