N-gramと相互情報量を用いた医療用語抽出のための分割点の探索

上杉 正人

doi:10.14948/jami.27.431

書誌事項

タイトル別名

Word Segmentations In Medical Document Using Mutual Information and N-gram

この論文をさがす

説明

本研究では，医療文書中から医療辞書なしで医療用語を抽出することにより，用語間の意味関連や概念の構築のために医療情報の有効な利用が促進されると考え，医療用語抽出のための前処理として用語と用語の分割点の探索を試みた．<br/> 用語の分割のために4種類のN-gram（unigram, bigram, trigramとquadrigram）を組み合わせて6種類の相互情報量を計算した．N-gramは9,800例，320万文字の論文抄録から求めた．unigramとbigramを用いた相互情報量Iuub(x, y)は文字x, yのそれぞれのunigramの出現確率p(x)とp(y)と文字列xyの出現確率p(x, y)からlog (p(x, y)/p(x)/p(y))により計算した．他の組み合わせIubt, Iutq, Ibbq, Ibut, Ituqを同様に計算した．計算された6種類の相互情報量の合計とその相互情報量の変化の合計を求め，各値が一定の閾値以下のとき単語の境界があると判定した．本研究では，これらの閾値の最適な値を明らかにした．また，そのときの単語境界の正しい判定の精度は63％であった．

収録刊行物

医療情報学

医療情報学 27 (5), 431-438, 2007

一般社団法人日本医療情報学会

キーワード

詳細情報詳細情報について

CRID: 1390282680727653248

NII論文ID: 10022605332

NII書誌ID: AN10024228

DOI: 10.14948/jami.27.431

ISSN: 21888469; 02898055

Web Site: https://search.jamas.or.jp/link/ui/2008181389

本文言語コード: ja

データソース種別

JaLC
CiNii Articles

抄録ライセンスフラグ: 使用不可

書き出し

問題の指摘