データ駆動型材料開発に向けた少量の学習データによる特許からの実験データ抽出技術
書誌事項
- タイトル別名
-
- Data extraction method from patents with small amount of training data for data-driven materials design
説明
<p>近年、情報技術で材料開発を高度化・低コスト化する「データ駆動型材料開発」が注目されている。その推進上の課題はデータ不足である。例えば、化学反応の収率予測には合成条件と収率のデータが大量に必要となる。実験によるデータ収集は高コストのため、文献からのデータ抽出(機械学習による固有表現抽出)をまず検討すべきである。特に、工数最小化のため少量の学習データで固有表現抽出できることが好ましい。そこで本研究では少量データでも高性能と報告されている大規模言語モデル(LLM)に注目し、合成条件と収率を含む10クラスの単語を化学系特許から抽出するChEMU2020データセットで精度評価した。学習データなしの場合、GPT-4の抽出精度はF1値0.60となり、「収率」などの数値は正確だが専門知識が必要な「触媒」などの化合物の役割は推定困難とわかった。そこで、小規模だが科学分野に特化したSciBERTを少量(50件)の実施例でファインチューニングしたところF1値0.68に改善した。この結果より、LLMの出力を人手で修正して効率よく学習データを作成し、ファインチューニングするアプローチが有効とわかった。</p>
収録刊行物
-
- 人工知能学会全国大会論文集
-
人工知能学会全国大会論文集 JSAI2024 (0), 3Xin257-3Xin257, 2024
一般社団法人 人工知能学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390018971042401408
-
- ISSN
- 27587347
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
-
- 抄録ライセンスフラグ
- 使用不可