トピックを考慮した大規模文書情報源からのレコード抽出
書誌事項
- タイトル別名
-
- トピック オ コウリョシタ ダイキボ ブンショ ジョウホウゲン カラノ レコード チュウシュツ
- Record Extraction from Large-scale Text Resources Considering Topics
この論文をさがす
抄録
近年、大量のテキスト文書からのレコード抽出の研究が行われている。レコード抽出には次の課題が存在する。第1に、大量の文書を情報抽出の対象とした場合に多大な処理コストがかかる。第2に、抽出されたレコードが、必ずしもユーザが興味あるトピックと合致しないことがある。これに対し本稿では、ユーザの意図に合った情報を効率よく抽出するためのレコード抽出手法を提案する。本手法では、効果的な抽出のために、ユーザの意図に適合した情報を含んでいる可能性の高い文書群を特定する。その特定した文書群を優先的に抽出処理に利用することで処理コストの削減を目指す。また、それらの文書群から内容の関連が深いレコードを抽出することで高い抽出精度を達成する。実験結果により、提案手法が抽出精度の低下を防ぎつつ、処理コストの削減を実現できることを示す。
収録刊行物
-
- 情報処理学会論文誌
-
情報処理学会論文誌 48 (SIG 14(TOD 35)), 107-123, 2007-09
情報処理学会
- Tweet
キーワード
詳細情報 詳細情報について
-
- CRID
- 1050001338796803072
-
- NII論文ID
- 110006390955
-
- NII書誌ID
- AA11464847
-
- ISSN
- 18827799
- 03875806
-
- HANDLE
- 2237/8981
- 10460/1103
-
- NDL書誌ID
- 8909133
-
- 本文言語コード
- ja
-
- 資料種別
- journal article
-
- データソース種別
-
- IRDB
- NDL
- CiNii Articles
- KAKEN