大規模ディレクトリサービスからの新出語抽出に関する考察

DOI

書誌事項

タイトル別名
  • Consideration of New Word Extraction from Large-scale Directory Service

抄録

近年、ウェブ上のサイトにおいては様々な専門分野の文書が存在し、日々最新の情報が公開されるため、辞書に載っていない分野特有の新出語が多数存在している。インデキシングや情報抽出などの目的でそれらの文書を計算機で処理する場合、新出語の扱いが問題となる。本稿ではWebディレクトリサービスには分野特有のカテゴリが多数存在していることに着目し、カテゴリ名から新出語を抽出する手法について検討する。新出語の判定法として、検索エンジンにおける検索結果のヒット数、カテゴリの階層の深さ、茶筌の形態素解析による品詞の連結パターンなどに着目し、新出語を抽出する際のそれらの有効性を示す。

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390282680644898688
  • NII論文ID
    130005035028
  • DOI
    10.14864/fss.21.0.22.0
  • データソース種別
    • JaLC
    • CiNii Articles
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ