診療テキストの構造化に向けた症例報告コーパスからの情報抽出

柴田 大作, 河添 悦昌, 篠原 恵美子, 嶋本 公徳

doi:10.11517/pjsai.jsai2022.0_1j4os13a03

<p>【背景】希少・難治性疾患の研究や診断に必要な表現型は診療テキストに自由記載されるため、計算機による情報抽出が可能となれば様々な応用が期待される。本研究は、希少・難治性疾患の症例報告テキストからなるコーパスの構築と機械学習による情報抽出の精度を報告する。【方法】指定難病333疾患を対象としJ-STAGEで検索された151疾患362症例報告を材料としてコーパスを構築した。このうち、著作権処理を行い公開したコーパスを対象としてTransformerをベースとするモデルにより情報抽出精度を評価した。【結果】公開コーパスは102疾患179症例報告あり、70種の固有表現タグと35種の関係がアノテートされた。1症例報告の平均文字数は1,917、固有表現タグ数の平均は361、関係数の平均は347であった。5分割交差検証によるマイクロF1の平均は、固有表現抽出では0.931、関係抽出は0.826であった。【考察】本コーパスは複雑で密なアノテーションを有するが、先行研究と遜色ない精度で情報抽出された。今後の課題として、表現型を用語集に対応付けることと、実診療テキストでの精度評価を行うことがあげられる。</p>

診療テキストの構造化に向けた症例報告コーパスからの情報抽出

書誌事項

抄録

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

診療テキストの構造化に向けた症例報告コーパスからの情報抽出

書誌事項

抄録

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について