化学反応に最適な酵素を予測するための機械学習を用いたEC番号予測モデルの開発
書誌事項
- タイトル別名
-
- Development of EC number prediction model using machine learning to predict the optimal enzyme for a chemical reaction
抄録
<p>4桁からなるEC番号には酵素名と,その酵素が触媒する化学反応も記載されている.本研究では,有機合成に用いる化学反応に対して最適な酵素候補をEC番号として予測するモデルの作成を行った.そして,Kyoto Encyclopedia of Genes and Genomes(KEGG)およびBRENDAなど文献に記載されている酵素反応データを用い,正解EC番号の予測に関するモデルの評価を行った.今回は,基質2種類,生成物2種類からなるEC 3に属する酵素反応に対し,EC番号のsubclass(2桁目)およびsub-subclass(3桁目)を予測するRandom Forests(RF)予測モデルを開発した.初めに,KEGGよりEC番号と反応式の文字データを取得し,数値に変換した.数値化の際には,各反応式で,基質が生成物に変化する際の208種類の記述子(物理・化学特性値)の変化量を計算し,208次元の反応式の特徴ベクトルを作成した.次に,SMOTEを適用し,特徴ベクトルのデータ数を962から3100にオーバーサンプリングした.さらに,予測モデル作成の前処理として記述子選択を行い,RFに対してforward selectionを適用し,23種類の記述子が選択された.また,パラメータ調整では決定木の最大深さ15,決定木数800となった.これらのデータ・パラメータ調整で作成した予測モデルの予測結果として,KEGGのテストデータに対し,F1スコア平均0.99が得られた.また,BRENDAなどの文献反応12種に対しても,現状十分な予測精度が得られた.</p>
収録刊行物
-
- 生物工学会誌
-
生物工学会誌 102 (4), 169-175, 2024-04-25
公益社団法人 日本生物工学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390299926126484480
-
- ISSN
- 24358630
- 09193758
-
- 本文言語コード
- ja
-
- データソース種別
-
- JaLC
-
- 抄録ライセンスフラグ
- 使用不可