フラグメント分子軌道法に現れるFock行列計算のGPGPU化

Bibliographic Information

Other Title
  • Fock Matrix Preparation in Fragment Molecular Orbital Method with GPGPU

Search this article

Abstract

OpenFMOプログラムのFock行列計算についてCUDAによるGPGPU化を行った.コストの高いアトミック加算についてはこれを回避するFock行列計算手法を提案し実装した.さらにスクリーニング過程の分離や動的負荷分散の実現,基底関数のソートなど多くの高速化の技法を実装することにより1CPUコアに対し13倍から22倍程度の性能を実現した.より高速なFock行列計算を目指し,MPIを利用した複数GPUによる並列化についての実装も行った.16台のGPUを利用した計算で4CPUコアに比べ40倍程度の性能が得られた.

GPU acceralated Fock matrix preparation routine in OpenFMO program has been implemented with CUDA. Atomic operation less algorithm was proposed and implemented for the Fock matrix preparation. Applying several speedup techniques, such as screening, dynamic load-balancing, and sorting basis functions, our program showed 13 to 22 times faster timing results against a CPU core. And also, the program has been parallelized with MPI to utilize multiple GPU cards. Parallelization benchmark was examined and reveals that 16 GPUs execution was 40 times faster than 4 CPU core execution.

Journal

Details 詳細情報について

Report a problem

Back to top