トピックを考慮した大規模文書情報源からのレコード抽出

張, 建偉, ZHANG, Jianwei, 石川, 佳治, ISHIKAWA, Yoshiharu, 北川, 博之, KITAGAWA, Hiroyuki

書誌事項

タイトル別名

トピックオコウリョシタダイキボブンショジョウホウゲンカラノレコードチュウシュツ
Record Extraction from Large-scale Text Resources Considering Topics

この論文をさがす

抄録

近年、大量のテキスト文書からのレコード抽出の研究が行われている。レコード抽出には次の課題が存在する。第１に、大量の文書を情報抽出の対象とした場合に多大な処理コストがかかる。第２に、抽出されたレコードが、必ずしもユーザが興味あるトピックと合致しないことがある。これに対し本稿では、ユーザの意図に合った情報を効率よく抽出するためのレコード抽出手法を提案する。本手法では、効果的な抽出のために、ユーザの意図に適合した情報を含んでいる可能性の高い文書群を特定する。その特定した文書群を優先的に抽出処理に利用することで処理コストの削減を目指す。また、それらの文書群から内容の関連が深いレコードを抽出することで高い抽出精度を達成する。実験結果により、提案手法が抽出精度の低下を防ぎつつ、処理コストの削減を実現できることを示す。

収録刊行物

情報処理学会論文誌

情報処理学会論文誌 48 (SIG 14(TOD 35)), 107-123, 2007-09

情報処理学会

詳細情報詳細情報について

トピックを考慮した大規模文書情報源からのレコード抽出

書誌事項

この論文をさがす

抄録

収録刊行物

参考文献 (15)*注記

関連プロジェクト

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

トピックを考慮した大規模文書情報源からのレコード抽出

書誌事項

この論文をさがす

抄録

収録刊行物

参考文献 (15)*注記

関連プロジェクト

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について