耳鼻咽喉科専門医試験における Generative Pretrained Transformer の有効性に関する検討

野田 昌生, 上野 貴雄, 甲州 亮太, 島田 Dias 茉莉, 伊藤 真人, 矢本 成恒, 吉崎 智一, 野村 章洋

doi:10.3950/jibiinkotokeibu.126.11_1217

近年, 医療分野において画像認識や自然言語処理など人工知能 (AI) の活用が進んでおり, どのように活用し, 危険があるのかについて理解することが, 安全で有効な医療応用に必要である. ChatGPT は2022年にリリースされた自然言語処理技術の一つで, 入力された指示 (プロンプト) に対して文章を生成し, 命令方法によって, その精度をさらに上げることが可能である. 米国における司法試験や医師免許試験では合格ラインに達する報告がなされているが, 非英語言語である日本語の医療分野における有効性についての報告は少ない. 今回, 2022年度耳鼻咽喉科専門医試験における ChatGPT のパフォーマンスについて評価し, 日本語の耳鼻咽喉科領域においての有効性と AI 活用の課題について検討した.　2022年度耳鼻咽喉科専門医試験の選択肢問題に関して, 図表問題を除外した48問を対象とした. 問題文のみを入力したものに加えて, 日本語のプロンプトを加えたもの, 英訳を命令したもの, さらに英語のプロンプトを加えたものの４通りの方法について行った. ChatGPT では GPT-3.5, GPT-4 の２種類のバージョンがあるため, 合計８種類の方法について, それぞれ５回ずつの検証を行い, 正答と比較した精度について評価し, 分析を行った.　ChatGPT-3.5, GPT-4 に対して, 問題文のみを入力した場合の精度は平均で31.67％, 45.42％であった. 日本語のプロンプトを加えた場合は35.00％, 43.75％, 英訳を命令したものでは39.58％, 52.08％, さらに英語のプロンプトを加えたものでは50.42％, 65.00％であった. GPT のバージョンや英訳により正答率が向上した. 誤答の割合が多い問題の特徴としては, 耳科学やめまい平衡, 音声に関連した問題や, 制度に関する問題が多い傾向があった.　ChatGPT を用いて, 耳鼻咽喉科専門医試験で最大65％の正答率を達成した. 今後, GPT の精度向上や新規プロンプトの開発により, さらに高い正答率を実現できる可能性がある. また, 非英語言語の日本語でも, 耳鼻咽喉科領域において一定の水準を達成できることが確認され, 耳鼻咽喉科臨床における AI の有用性や課題を考える上で一助となる. 一方で, 必ずしも正答するわけではなく, 入力するプロンプトによって正答率が異なり, 必ずしも正答するともかぎらないことから, それを正確に判断することが求められる. 耳鼻咽喉科領域における活用については, リスクの少ない診療の補助などから円滑な活用方法を模索していく必要がある.

耳鼻咽喉科専門医試験における Generative Pretrained Transformer の有効性に関する検討

書誌事項

この論文をさがす

抄録

収録刊行物

参考文献 (7)*注記

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

耳鼻咽喉科専門医試験における Generative Pretrained Transformer の有効性に関する検討

書誌事項

この論文をさがす

抄録

収録刊行物

参考文献 (7)*注記

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

参加プロジェクトリスト

詳細情報詳細情報について