耳鼻咽喉科専門医試験における Generative Pretrained Transformer の有効性に関する検討

  • 野田 昌生
    自治医科大学耳鼻咽喉科・小児耳鼻咽喉科 金沢大学耳鼻咽喉科・頭頸部外科
  • 上野 貴雄
    金沢大学耳鼻咽喉科・頭頸部外科
  • 甲州 亮太
    自治医科大学耳鼻咽喉科・小児耳鼻咽喉科
  • 島田 Dias 茉莉
    自治医科大学耳鼻咽喉科・小児耳鼻咽喉科
  • 伊藤 真人
    自治医科大学耳鼻咽喉科・小児耳鼻咽喉科
  • 矢本 成恒
    名古屋商科大学大学院
  • 吉崎 智一
    金沢大学耳鼻咽喉科・頭頸部外科
  • 野村 章洋
    金沢大学融合研究域融合科学系 金沢大学大学院循環器内科学研究分野 金沢大学先端観光科学研究所 一般社団法人 CureApp Institute

書誌事項

タイトル別名
  • A Study of the Performance of the Generative Pretrained Transformer in the Japanese Otorhinolaryngology Specialty Examination
  • 耳鼻咽喉科専門試験におけるGenerative Pretrained Transformerの有効性に関する検討
  • ジビ インコウカ センモン シケン ニ オケル Generative Pretrained Transformer ノ ユウコウセイ ニ カンスル ケントウ

この論文をさがす

抄録

<p> 近年, 医療分野において画像認識や自然言語処理など人工知能 (AI) の活用が進んでおり, どのように活用し, 危険があるのかについて理解することが, 安全で有効な医療応用に必要である. ChatGPT は2022年にリリースされた自然言語処理技術の一つで, 入力された指示 (プロンプト) に対して文章を生成し, 命令方法によって, その精度をさらに上げることが可能である. 米国における司法試験や医師免許試験では合格ラインに達する報告がなされているが, 非英語言語である日本語の医療分野における有効性についての報告は少ない. 今回, 2022年度耳鼻咽喉科専門医試験における ChatGPT のパフォーマンスについて評価し, 日本語の耳鼻咽喉科領域においての有効性と AI 活用の課題について検討した.</p><p> 2022年度耳鼻咽喉科専門医試験の選択肢問題に関して, 図表問題を除外した48問を対象とした. 問題文のみを入力したものに加えて, 日本語のプロンプトを加えたもの, 英訳を命令したもの, さらに英語のプロンプトを加えたものの4通りの方法について行った. ChatGPT では GPT-3.5, GPT-4 の2種類のバージョンがあるため, 合計8種類の方法について, それぞれ5回ずつの検証を行い, 正答と比較した精度について評価し, 分析を行った.</p><p> ChatGPT-3.5, GPT-4 に対して, 問題文のみを入力した場合の精度は平均で31.67%, 45.42%であった. 日本語のプロンプトを加えた場合は35.00%, 43.75%, 英訳を命令したものでは39.58%, 52.08%, さらに英語のプロンプトを加えたものでは50.42%, 65.00%であった. GPT のバージョンや英訳により正答率が向上した. 誤答の割合が多い問題の特徴としては, 耳科学やめまい平衡, 音声に関連した問題や, 制度に関する問題が多い傾向があった.</p><p> ChatGPT を用いて, 耳鼻咽喉科専門医試験で最大65%の正答率を達成した. 今後, GPT の精度向上や新規プロンプトの開発により, さらに高い正答率を実現できる可能性がある. また, 非英語言語の日本語でも, 耳鼻咽喉科領域において一定の水準を達成できることが確認され, 耳鼻咽喉科臨床における AI の有用性や課題を考える上で一助となる. 一方で, 必ずしも正答するわけではなく, 入力するプロンプトによって正答率が異なり, 必ずしも正答するともかぎらないことから, それを正確に判断することが求められる. 耳鼻咽喉科領域における活用については, リスクの少ない診療の補助などから円滑な活用方法を模索していく必要がある.</p>

収録刊行物

参考文献 (7)*注記

もっと見る

詳細情報 詳細情報について

問題の指摘

ページトップへ