-
- 上杉 正人
- 北海道大学大学院医学研究科 社会医学専攻医療情報学分野
書誌事項
- タイトル別名
-
- Word Segmentations In Medical Document Using Mutual Information and N-gram
この論文をさがす
説明
本研究では,医療文書中から医療辞書なしで医療用語を抽出することにより,用語間の意味関連や概念の構築のために医療情報の有効な利用が促進されると考え,医療用語抽出のための前処理として用語と用語の分割点の探索を試みた.<br/> 用語の分割のために4種類のN-gram(unigram, bigram, trigramとquadrigram)を組み合わせて6種類の相互情報量を計算した.N-gramは9,800例,320万文字の論文抄録から求めた.unigramとbigramを用いた相互情報量Iuub(x, y)は文字x, yのそれぞれのunigramの出現確率p(x)とp(y)と文字列xyの出現確率p(x, y)からlog (p(x, y)/p(x)/p(y))により計算した.他の組み合わせIubt, Iutq, Ibbq, Ibut, Ituqを同様に計算した.計算された6種類の相互情報量の合計とその相互情報量の変化の合計を求め,各値が一定の閾値以下のとき単語の境界があると判定した.本研究では,これらの閾値の最適な値を明らかにした.また,そのときの単語境界の正しい判定の精度は63%であった.
収録刊行物
-
- 医療情報学
-
医療情報学 27 (5), 431-438, 2007
一般社団法人 日本医療情報学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390282680727653248
-
- NII論文ID
- 10022605332
-
- NII書誌ID
- AN10024228
-
- ISSN
- 21888469
- 02898055
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
- CiNii Articles
-
- 抄録ライセンスフラグ
- 使用不可