重要文抽出によるWebページ要約のためのHTMLテキスト分割

砂山, 渡, 井山, 晃洋, 谷内田, 正彦, SUNAYAMA, Wataru, IYAMA, Akihiro, YACHIDA, Masahiko

書誌事項

タイトル別名

HTML Texts Segmentation for Web Page Summarization by Using a Key Sentences Extraction Method
ジュウヨウブンチュウシュツニヨル Web ページヨウヤクノタメノ HTML テキストブンカツ

この論文をさがす

説明

検索エンジンにおいて検索結果として表示される情報は,目的の情報を素早く獲得する上で重要なものである.特に,検索結果の各Webページの要約文は,各Webページの内容を知る上で重要であるとともに,ユーザが入力した検索語が各Webページ内でどのように使われているか,すなわち検索語と各Webページとのかかわりを知るために有効である.しかし,従来の検索エンジンにおける検索結果の要約文は,Webページの冒頭部分のテキストが抜き出されて検索語が含まれていなかったり,検索語を含んでいても文の途中で切れていて文として不完全で,文脈やWebページの内容を把握できないという問題点がある.そのため文を単位とした要約の出力が望まれるが,HTMLテキストにおいては,句点を含まない,文以外の記述が数多く含まれているため,そのまま文を単位とした重要文抽出システムによって要約文を提供することは困難である.そこで本論文では,各Webページのソースを文に相当する意味の切れ目において分割するHTMLテキスト分割システムを提案する.また,本システムにより生成されるテキストが,Webページの要約生成に有効に働くことを実験により検証した.

収録刊行物

電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理

電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理 J87-D-I (12), 1089-1097, 2004-12-01

電子情報通信学会

詳細情報詳細情報について

CRID: 1050296586506702848

NII論文ID: 110003203295

NII書誌ID: AA11341020

ISSN: 09151915

NDL書誌ID: 7172322

Web Site: https://hiroshima-cu.repo.nii.ac.jp/records/1262; http://id.ndl.go.jp/bib/7172322; https://ndlsearch.ndl.go.jp/books/R000000004-I7172322

本文言語コード: ja

資料種別: journal article

データソース種別

IRDB
NDLサーチ
CiNii Articles
KAKEN

書き出し

問題の指摘

重要文抽出によるWebページ要約のためのHTMLテキスト分割

書誌事項

この論文をさがす

説明

収録刊行物

被引用文献 (4)*注記

参考文献 (15)*注記

関連プロジェクト

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

重要文抽出によるWebページ要約のためのHTMLテキスト分割

書誌事項

この論文をさがす

説明

収録刊行物

被引用文献 (4)*注記

参考文献 (15)*注記

関連プロジェクト

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について