HTMLからのテキストの自動切り出しアルゴリズムと実装

村上, 義継, Yoshitsugu, Murakami

HTMLからのテキストの自動切り出しアルゴリズムと実装

情報処理学会 Web Site Web Site 被引用文献3件参考文献17件

書誌事項

タイトル別名

Extracting Text Data from HTML Documents
HTML カラノテキストノジドウキリダシアルゴリズムトジッソウ

この論文をさがす

説明

World Wide Web で収集したHTML テキストから部分的にデータを取り出すプログラムをHTMLWrapper と呼ぶ．本研究ではHTML Wrapper のための新しいデータモデルを提案し，与えられたHTML から所望のテキストデータを切り出すためのHTML Wrapper を自動生成する機械学習アルゴリズムを構築する．さらにこのアルゴリズムをJava によって実装し，このアルゴリズムの有効性を検証する．

This paper introduces the new model of the HTML Wrapper for the information extraction from HTML documents and presents the learning algorithm for the HTML Wrappers in the framework of learning by exmaples. The expressiveness of this model is shown by experimental results.

収録刊行物

情報処理学会論文誌数理モデル化と応用（TOM）

情報処理学会論文誌数理モデル化と応用（TOM） 42 (SIG14(TOM5)), 39-49, 2001-12-15

情報処理学会

被引用文献 (3)*注記

参考文献 (17)*注記

オリジナル論文

詳細情報詳細情報について

CRID

1050282812868508544
NII論文ID

10012520218

110002936511

110002726143
NII書誌ID

AA11464803
ISSN

18827780

09196072

03875806
NDL書誌ID

5747753

6022913
Web Site

https://ipsj.ixsq.nii.ac.jp/records/17308

http://id.ndl.go.jp/bib/5747753

https://ndlsearch.ndl.go.jp/books/R000000004-I5747753

http://id.ndl.go.jp/bib/6022913

https://ndlsearch.ndl.go.jp/books/R000000004-I6022913
本文言語コード

ja
資料種別

journal article
データソース種別
- IRDB
- NDLサーチ
- CiNii Articles

書き出し

問題の指摘

ページトップへ

HTMLからのテキストの自動切り出しアルゴリズムと実装

書誌事項

この論文をさがす

説明

収録刊行物

被引用文献 (3)*注記

参考文献 (17)*注記

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について