類語関係抽出タスクにおけるコーパス規模拡大の影響
-
- 相澤
- 国立情報学研究所 総合研究大学院大学
書誌事項
- タイトル別名
-
- On the Effect of Corpus Size in Words Similarity Calculation
この論文をさがす
説明
本稿では、タグなしテキストから類語関係を自動抽出するタスクにおいて、コーパス規模の拡大が類似度計算に与える影響を調べる。近年ではWebに代表される大規模なテキスト集合が利用可能となり、単純な手法でもコーパス規模が十分に大きければ、LSA等の従来手法と比較し得る高い性能が得られるとの報告もある。そこで本稿では、コーパスの量が質を補うのかという問題について、実際のデータに基づき調べた結果を考察とともに報告する。特に、コーパスが大規模になると、類似度の値に対する語頻度の影響が無視できない場合があることを示し、これを回避するための単純なフィルタリング法とその効果について述べる。
収録刊行物
-
- 情報処理学会研究会報告
-
情報処理学会研究会報告 94 91-98, 2006
一般社団法人情報処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1573105976776148864
-
- NII論文ID
- 110004824264
-
- NII書誌ID
- AN10115061
-
- 本文言語コード
- ja
-
- データソース種別
-
- CiNii Articles