幾何学的接尾辞木の高速処理方式

Bibliographic Information

Other Title
  • High-speed Processing Method for Geometric Suffix Tree

Search this article

Abstract

ディスク上に蓄積された幾何学的接尾辞木は,蛋白質立体構造データベースに対する高速な類似検索のための索引構造として利用可能である.しかしながら,蛋白質立体構造データベースの大規模化により,その索引構造の構築に多くの時間を費やすだけではなく,索引構造を用いた類似検索に要する時間にも影響を与える.本論文では,幾何学的接尾辞木の高速処理を実現するために,幾何学的接尾辞木の構築方法の改良および構築処理と検索処理の双方をマスタワーカ法や分散型ワーカ法を用いて並列化する方法を提案する.構築方法の改良では,幾何学的接尾辞木の従来の構築法が並列化に直接向いていないという点に着目し,並列化をする前に,あらかじめ,この構築方法を従来の座標配列を1本ずつ処理する逐次構築法から全データをまとめて処理するトップダウン構築法に変更している.また,データページを管理するバッファ管理法の変更も行っている.さらに,構築と検索のそれぞれに対して,データ分割法とタスク分割法による並列化を実施し,並列性能を評価している.実験により並列性能を測定した結果,幾何学的接尾辞木の並列処理においては,マルチバッファ・マスタワーカ法がシングルバッファ・マスタワーカ法や分散型ワーカ法よりも優れていることが判明した.

Geometric suffix trees stored on a disk can be used as indices to achieve a high-speed similarity search on large-scale, 3-D protein structure databases. However, due to an increasing number of data records in the protein structure database, a large amount of time must be taken to construct the index, greatly affecting the search speed. This paper proposes a high-speed processing method using a master worker and distributed worker methods in order to parallelize improvement of construction methods and both the construction processing of the index and the similarity search processing using the index constructed in the protein structure database. In the improvement of construction methods, the authors focus on the viewpoint that the existing construction method of the geometric suffix tree is not suitable for direct parallelization. Therefore, beforehand, the authors changed the existing sequential construction method to process one by one the data in the database into a top-down construction method to process all of the data together in the database. Moreover, the authors changed the existing buffer control method into an adaptive method for parallel processing. In order to parallelize both the construction and the similarity search, both data partition and task partition methods are applied to a given problem, such as the construction and similarity search, and sub-problems generated from the given problem are executed in parallel using each worker model. The performance evaluation experiments resulted as follows: in the parallel processing, a multi-buffer master worker method was better than a single-buffer master worker method and the distributed worker method.

Journal

Related Projects

See more

Details 詳細情報について

Report a problem

Back to top