データ駆動型材料開発に向けた少量の学習データによる特許からの実験データ抽出技術

露木 雅文, 我妻 正太郎, 武藤 和夫

doi:10.11517/pjsai.jsai2024.0_3xin257

<p>近年、情報技術で材料開発を高度化・低コスト化する「データ駆動型材料開発」が注目されている。その推進上の課題はデータ不足である。例えば、化学反応の収率予測には合成条件と収率のデータが大量に必要となる。実験によるデータ収集は高コストのため、文献からのデータ抽出(機械学習による固有表現抽出)をまず検討すべきである。特に、工数最小化のため少量の学習データで固有表現抽出できることが好ましい。そこで本研究では少量データでも高性能と報告されている大規模言語モデル(LLM)に注目し、合成条件と収率を含む10クラスの単語を化学系特許から抽出するChEMU2020データセットで精度評価した。学習データなしの場合、GPT-4の抽出精度はF1値0.60となり、「収率」などの数値は正確だが専門知識が必要な「触媒」などの化合物の役割は推定困難とわかった。そこで、小規模だが科学分野に特化したSciBERTを少量(50件)の実施例でファインチューニングしたところF1値0.68に改善した。この結果より、LLMの出力を人手で修正して効率よく学習データを作成し、ファインチューニングするアプローチが有効とわかった。</p>

データ駆動型材料開発に向けた少量の学習データによる特許からの実験データ抽出技術

書誌事項

説明

収録刊行物

キーワード

詳細情報詳細情報について

書き出し

問題の指摘

データ駆動型材料開発に向けた少量の学習データによる特許からの実験データ抽出技術

書誌事項

説明

収録刊行物

キーワード

詳細情報 詳細情報について

書き出し

問題の指摘

詳細情報詳細情報について