化学反応に最適な酵素を予測するための機械学習を用いたEC番号予測モデルの開発

DOI

書誌事項

タイトル別名
  • Development of EC number prediction model using machine learning to predict the optimal enzyme for a chemical reaction

抄録

<p>4桁からなるEC番号には酵素名と,その酵素が触媒する化学反応も記載されている.本研究では,有機合成に用いる化学反応に対して最適な酵素候補をEC番号として予測するモデルの作成を行った.そして,Kyoto Encyclopedia of Genes and Genomes(KEGG)およびBRENDAなど文献に記載されている酵素反応データを用い,正解EC番号の予測に関するモデルの評価を行った.今回は,基質2種類,生成物2種類からなるEC 3に属する酵素反応に対し,EC番号のsubclass(2桁目)およびsub-subclass(3桁目)を予測するRandom Forests(RF)予測モデルを開発した.初めに,KEGGよりEC番号と反応式の文字データを取得し,数値に変換した.数値化の際には,各反応式で,基質が生成物に変化する際の208種類の記述子(物理・化学特性値)の変化量を計算し,208次元の反応式の特徴ベクトルを作成した.次に,SMOTEを適用し,特徴ベクトルのデータ数を962から3100にオーバーサンプリングした.さらに,予測モデル作成の前処理として記述子選択を行い,RFに対してforward selectionを適用し,23種類の記述子が選択された.また,パラメータ調整では決定木の最大深さ15,決定木数800となった.これらのデータ・パラメータ調整で作成した予測モデルの予測結果として,KEGGのテストデータに対し,F1スコア平均0.99が得られた.また,BRENDAなどの文献反応12種に対しても,現状十分な予測精度が得られた.</p>

収録刊行物

  • 生物工学会誌

    生物工学会誌 102 (4), 169-175, 2024-04-25

    公益社団法人 日本生物工学会

詳細情報 詳細情報について

  • CRID
    1390299926126484480
  • DOI
    10.34565/seibutsukogaku.102.4_169
  • ISSN
    24358630
    09193758
  • 本文言語コード
    ja
  • データソース種別
    • JaLC
  • 抄録ライセンスフラグ
    使用不可

問題の指摘

ページトップへ