データ駆動型材料開発に向けた少量の学習データによる特許からの実験データ抽出技術

書誌事項

タイトル別名
  • Data extraction method from patents with small amount of training data for data-driven materials design

説明

<p>近年、情報技術で材料開発を高度化・低コスト化する「データ駆動型材料開発」が注目されている。その推進上の課題はデータ不足である。例えば、化学反応の収率予測には合成条件と収率のデータが大量に必要となる。実験によるデータ収集は高コストのため、文献からのデータ抽出(機械学習による固有表現抽出)をまず検討すべきである。特に、工数最小化のため少量の学習データで固有表現抽出できることが好ましい。そこで本研究では少量データでも高性能と報告されている大規模言語モデル(LLM)に注目し、合成条件と収率を含む10クラスの単語を化学系特許から抽出するChEMU2020データセットで精度評価した。学習データなしの場合、GPT-4の抽出精度はF1値0.60となり、「収率」などの数値は正確だが専門知識が必要な「触媒」などの化合物の役割は推定困難とわかった。そこで、小規模だが科学分野に特化したSciBERTを少量(50件)の実施例でファインチューニングしたところF1値0.68に改善した。この結果より、LLMの出力を人手で修正して効率よく学習データを作成し、ファインチューニングするアプローチが有効とわかった。</p>

収録刊行物

詳細情報 詳細情報について

  • CRID
    1390018971042401408
  • DOI
    10.11517/pjsai.jsai2024.0_3xin257
  • ISSN
    27587347
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ