文字列照合マシンを利用した複合語キーワードの効率的抽出法

書誌事項

タイトル別名
  • モジレツ ショウゴウ マシン オ リヨウシタ フクゴウゴ キーワード ノ コウ
  • An Efficient Method for Extracting Keywords of Compound Words Using Pattern Matching Machines
  • テキスト処理

この論文をさがす

抄録

本論文では,日本語文書から複合語キーワード(以後,キーワードと呼ぶ)を効率的に抽出する手法を提案する.本手法では,抽出条件に集合表現を導入した規則の記述を定義する.そして,規則集合の照合マシン(抽出マシンと呼ぶ)と候補語に対する部分文字列処理マシン(候補マシンと呼ぶ)を提案する.抽出マシンでは,包含関係に基づく照合アルゴリズムを提案し,候補マシンでは,候補語に対して部分文字列の関係が定義できる構成アルゴリズムを提案する.以上の抽出の高速化に加えて,提案した抽出エンジンは,分野別あるいは目的別に抽出規則が独立に構築でき,より精度の高いキーワード抽出が可能となる.形態素が10,129個である文書に対して29個の規則を定義した結果,形態素解析を除いた抽出時間は0.658秒となり,34種類の文書に対するキーワード抽出実験により,再現率が8.34%,適合率が2.67%向上することが分かった.

Extracting keywords efficiently is an important task in text retrieval systems.In Japanese texts,there are many compound words consisting some kinds of characters (Katakana,Kanji,etc.) and the text has no delimiter among words.Therefore,extracting keywords from such a text takes a lot of time.This paper presents a technique of detecting keywords from compound keywords by introducing a set of rules,which represents multi-attribute conditions for keyword construction.A multi-attribute pattern matching machine for a finite number of rules is presented and storing keyword candidates together with information about both long term and short term words.The approach is estimated by theoretical analysis. By the simulation results for 34 Japanese text files,it is shown that the algorithm presented has performed 19.4ms/KB and that the recall/precision ratio of extracting expected keywords increases from 65.89/26.56% to 74.23/29.23%.

収録刊行物

被引用文献 (3)*注記

もっと見る

参考文献 (14)*注記

もっと見る

キーワード

詳細情報 詳細情報について

問題の指摘

ページトップへ