- 【Updated on May 12, 2025】 Integration of CiNii Dissertations and CiNii Books into CiNii Research
- Trial version of CiNii Research Knowledge Graph Search feature is available on CiNii Labs
- 【Updated on June 30, 2025】Suspension and deletion of data provided by Nikkei BP
- Regarding the recording of “Research Data” and “Evidence Data”
HTML Texts Segmentation for Web Page Summarization by Using a Key Sentences Extraction Method
Bibliographic Information
- Other Title
-
- 重要文抽出によるWebページ要約のためのHTMLテキスト分割
- ジュウヨウブン チュウシュツ ニ ヨル Web ページ ヨウヤク ノ タメ ノ HTML テキスト ブンカツ
Search this article
Description
検索エンジンにおいて検索結果として表示される情報は,目的の情報を素早く獲得する上で重要なものである.特に,検索結果の各Webページの要約文は,各Webページの内容を知る上で重要であるとともに,ユーザが入力した検索語が各Webページ内でどのように使われているか,すなわち検索語と各Webページとのかかわりを知るために有効である.しかし,従来の検索エンジンにおける検索結果の要約文は,Webページの冒頭部分のテキストが抜き出されて検索語が含まれていなかったり,検索語を含んでいても文の途中で切れていて文として不完全で,文脈やWebページの内容を把握できないという問題点がある.そのため文を単位とした要約の出力が望まれるが,HTMLテキストにおいては,句点を含まない,文以外の記述が数多く含まれているため,そのまま文を単位とした重要文抽出システムによって要約文を提供することは困難である.そこで本論文では,各Webページのソースを文に相当する意味の切れ目において分割するHTMLテキスト分割システムを提案する.また,本システムにより生成されるテキストが,Webページの要約生成に有効に働くことを実験により検証した.
Journal
-
- 電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理
-
電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理 J87-D-I (12), 1089-1097, 2004-12-01
電子情報通信学会
- Tweet
Keywords
Details 詳細情報について
-
- CRID
- 1050296586506702848
-
- NII Article ID
- 110003203295
-
- NII Book ID
- AA11341020
-
- ISSN
- 09151915
-
- NDL BIB ID
- 7172322
-
- Text Lang
- ja
-
- Article Type
- journal article
-
- Data Source
-
- IRDB
- NDL Search
- CiNii Articles
- KAKEN