構造と構成要素に基づく学術論文の自動判定

書誌事項

タイトル別名
  • Automatic Detection of Scientific Papers Based on Their Structure and Elements
  • コウゾウ ト コウセイ ヨウソ ニ モトズク ガクジュツ ロンブン ノ ジドウ ハンテイ

この論文をさがす

抄録

ウェブ上に存在するPDFファイル群から学術論文を自動的に判定する手法の開発を目的とした。まず,学術論文の構成要素と構造がどのように発達してきたかを調査した。英語と日本語の学術論文1,172件に対して,それらが顕れているかを調査した。その結果,論文は共通した構成要素を有しており,見出しを持つ論文のうち40%近くがIMRAD形式またはそれに近い構造を採っていた。次に,これらの結果をもとに,学術論文を自動的に判定するためのルールを構築した。ウェブ上から無作為に収集した英語と日本語のPDFファイル集合を用いて判定性能を実験したところ,ランダムフォレストによる判定器を用いた場合,F値は英語集合では0.74,日本語集合では0.53であった。これらの結果から,本研究で用いたアプローチにより構築した判定ルールにより,ウェブ上に存在するPDFファイル群から学術論文を自動的に判定できる可能性が示唆された。

収録刊行物

詳細情報 詳細情報について

問題の指摘

ページトップへ