類語関係抽出タスクにおけるコーパス規模拡大の影響

相澤

書誌事項

タイトル別名

On the Effect of Corpus Size in Words Similarity Calculation

説明

本稿では、タグなしテキストから類語関係を自動抽出するタスクにおいて、コーパス規模の拡大が類似度計算に与える影響を調べる。近年ではWebに代表される大規模なテキスト集合が利用可能となり、単純な手法でもコーパス規模が十分に大きければ、LSA等の従来手法と比較し得る高い性能が得られるとの報告もある。そこで本稿では、コーパスの量が質を補うのかという問題について、実際のデータに基づき調べた結果を考察とともに報告する。特に、コーパスが大規模になると、類似度の値に対する語頻度の影響が無視できない場合があることを示し、これを回避するための単純なフィルタリング法とその効果について述べる。

収録刊行物

情報処理学会研究会報告

情報処理学会研究会報告 94 91-98, 2006

一般社団法人情報処理学会

詳細情報詳細情報について

CRID: 1573105976776148864

NII論文ID: 110004824264

NII書誌ID: AN10115061

本文言語コード: ja

データソース種別

CiNii Articles

書き出し

問題の指摘

類語関係抽出タスクにおけるコーパス規模拡大の影響

書誌事項

この論文をさがす

説明

収録刊行物

被引用文献 (2)*注記

詳細情報詳細情報について

書き出し

問題の指摘

類語関係抽出タスクにおけるコーパス規模拡大の影響

書誌事項

この論文をさがす

説明

収録刊行物

被引用文献 (2)*注記

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について