医学生物学文献からの専門用語の抽出に向けて:タンパク質名の自動抽出

Bibliographic Information

Other Title
  • イガク セイブツガク ブンケン カラ ノ センモン ヨウゴ ノ チュウシュツ
  • Extracting Technical Terms from Medical and Biological Articles
  • 自然言語処理

Search this article

Abstract

専門分野の文献処理では,専門用語の処理が重要な位置を占める.しかし専門用語はたえず新たに作られ続けるため,専用の辞書をあらかじめ用意できたとしても未知語に遭遇することは避けられない.また,専門用語には領域専門家の間でのみ通用するあいまいな表記が存在する.このため,専門家が文献中で専門用語辞典の見出しに正確に一致するように言葉を選ぶことは少ない.このような理由により,専門用語を同定するために,優れた専門用語辞典をあらかじめ網羅的に作成することは困難である.我々は本報告で医学生物学分野を取りあげ,領域固有の辞書をあらかじめ用意することなく専門用語を抽出する手法を提案する.我々の手法は未知語・既知語の区別なく適用でき,さらに表記の多様性にも対応している.我々はMEDLINE1)に登録されている論文要旨に対してタンパン質名の抽出実験を行い,適合率94.70%,再現率98.84%の結果を得た.

In processing documents of special fields,adequate processing of technical terms is important.However,technical terms are generated everyday and one cannot avoid encountering words unknown to the system.Moreover,vague expressions which are used only among the area experts exist.Therefore,in some fields,a technical term dictionary prepared beforehand may not work effectively.In this report,we propose a technique by which special terms are extracted adequately without background knowledge.Our technique can be applied to unknown words as well as already-known words and is robust against the variety of expressions.We implemented and evaluated our technique against abstracts of medical and biological articles which were retrieved from MEDLINE1).We obtained the result of 94.70% precision and 98.8% recall.

Journal

Citations (8)*help

See more

References(7)*help

See more

Keywords

Details 詳細情報について

Report a problem

Back to top