AkaiKKRとOpenMP並列化

AkaiKKR(machikaneyama)ではOpenMPを用いた並列計算を行うに際して、August 26, 2015に公開されたバージョンから OMP_NUM_THREADS などの環境変数を設定する必要が無くなったようです。その反面、並列化する際のスレッド数の制御もできなくなりました。

今回は、それよりも古いバージョンであるMay 22, 2015を使って、計算に使うスレッドの数と計算時間の関係を調べました。

001_20150915141750561.png

Fig.1: スレッド数と計算時間の関係。計算時間は単一スレッドで計算した時間で規格化してある。スレッド数を増やすごとに計算時間が短縮されていく。短縮の度合いは、計算する物質の種類にはほとんど依存しない事がわかる。


その結果、少なくとも私が思っていたよりは、効率的に計算速度が上がっており、何も考えずに全スレッドを使った計算をしてしまってもよさそうな感触を得ました。


OpenMPによる並列化


August 26, 2015よりも以前のバージョンのAkaiKKR(machikaneyama)でもOpenMPを用いた並列化が可能でしたが、August 26, 2015のバージョンでは並列化に対する考え方が変わったようです。

以前はOpenMPを使うためには OMP_NUM_THREADS などの環境変数を設定しなければなりませんでした。この点は、初めてAkaiKKRをインストールする初心者にとって躓きやすいポイントでした(参考:AkaiKKR掲示板の6548 コンパイルスレッド)。August 26, 2015では、環境変数を設定する必要が無くなりコンパイラを指定してmakeするだけでOpenMP並列版のバイナリを作成、実行することができるようです。

その反面、以前は OMP_NUM_THREADS に実際のCPUのスレッド数よりも小さい値を指定することによって、使用するスレッドの数を制限することができていました。August 26, 2015では(少なくとも同じ方法では)スレッドの数を制限できなくなってしまいました。

並列化による速度の上昇


AkaiKKRはコヒーレントポテンシャル近似(CPA)を用いた合金の計算が得意です。従って、使われる用途は必然的に広い組成の範囲を持った合金の計算になりがちです。例えばAkaiKKRでFeCoの磁気モーメントと格子定数では、鉄とコバルトの二元合金に対して、コバルト濃度を0%から100%まで10%刻みで計算しています。

このような計算をするときに、CPUを並列化して組成を一種類ずつ順番に計算していく場合と、それぞれの計算にはCPUを1スレッドずつしか使わずに、複数の組成を平行して計算する場合の、どちらの方が高速に計算を終えることができるのか気になります。
そこで今回は、スレッド数と計算時間の関係をAugust 26, 2015よりも以前のバージョンであるMay 22, 2015で調べました。

計算条件


2015年9月の第27回CMDワークショップに参加させていただき、9月末まで大阪大学のコンピューターを使わせていただけるという事なのでcmd2の私のアカウントにMay 22, 2015のバージョンをインストールして計算を行いました。

計算セルの大きさやCPAの有無によってどの程度の影響があるのかを知るため、もっとも単純なbccFe, CPAを用いたfccNi50Fe50, 計算セルに5個の原子を持ち三成分のCPAを行う立方晶Sr(Ti0.97Ta0.02Ni0.01)O3ペロフスカイト, かなりオープンな構造であるため多量の空港を入れてあるグラファイトの4種類の計算を行いました。

#!/bin/csh -f

## *** プロジェクト名 ***
set PROJECT="Fe"
#set PROJECT="NiFe"
#set PROJECT="SrTiO3"
#set PROJECT="graphite"

setenv OMP_STACKSIZE 100M
limit stacksize unlimited

# ## スレッド数 6
setenv OMP_NUM_THREADS 6
echo "OMP_NUM_THREADS=6"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_6.out

## スレッド数 5
setenv OMP_NUM_THREADS 5
echo "OMP_NUM_THREADS=5"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_5.out

## スレッド数 4
setenv OMP_NUM_THREADS 4
echo "OMP_NUM_THREADS=4"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_4.out

## スレッド数 3
setenv OMP_NUM_THREADS 3
echo "OMP_NUM_THREADS=3"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_3.out

## スレッド数 2
setenv OMP_NUM_THREADS 2
echo "OMP_NUM_THREADS=2"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_2.out

## スレッド数 1
setenv OMP_NUM_THREADS 1
echo "OMP_NUM_THREADS=1"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_1.out


結果


Fig.1はスレッドの数と計算時間の関係をプロットしたものです。
CPUの処理時間は、それぞれの物質を単一スレッドで計算したときの値を1として規格化してあります。
したがって、理想的に言えば2スレッドを使った時には時間が1/2になり、3スレッドを使った時には1/3となる、といったように減少していってほしいところです。実際には多少のオーバーヘッドがありもう少し長い時間がかかっています。

スレッド数を増していくほど並列化の効果は減っていきますが、6スレッド程度までなら並列化の効果が頭打ちになってしまうという事はないようです。また、結晶構造の複雑さに応じて、並列化の効果が変わるのではないかと予想していましたが、結果を見る限りほとんど影響はないようです。

計算してみる前は、状況に応じて並列化の有無をコントロールすることで、効率よく計算ができるのではないかと考えていましたが、結果を見る限り全てOpenMP並列化でやってしまってもよさそうな気がします。
August 26, 2015にバージョンアップすることにより、OMP_NUM_THREADSで並列化数のコントロールができなくなりますが、それでもOpenMP関連に関しては、デメリットよりもメリットの方が大きそうです。

関連エントリ




参考URL




付録


このエントリで使用したファイルを添付します。ファイル名末尾の".txt"を削除して、"_"を"."に変更すれば使えるはずです。(参考:ねがてぃぶろぐの付録)


参考文献/使用機器




フィードバック



にほんブログ村 その他趣味ブログ 電子工作へ

 ↑ 電子工作ブログランキング参加中です。1クリックお願いします。


コメント・トラックバックも歓迎です。 ↓      


 ↓ この記事が面白かった方は「拍手」をお願いします。


tag: AkaiKKR machikaneyama KKR CPA OpenMP 

comment

Secret

FC2カウンター
カテゴリ
ユーザータグ

LTspiceAkaiKKRmachikaneyamaScilabKKRPSoCOPアンプCPA強磁性PICモンテカルロ解析常微分方程式odeトランジスタecalj状態密度DOSインターフェース定電流スイッチング回路PDS5022半導体シェルスクリプト乱数レベルシフトHP6632A温度解析分散関係I2Cトランジスタ技術R6452A可変抵抗ブレッドボードセミナーバンドギャップ数値積分確率論反強磁性偏微分方程式バンド構造絶縁熱設計非線形方程式ソルバフォトカプラシュミットトリガLEDLM358カオスISO-I2C三端子レギュレータGW近似A/Dコンバータカレントミラーアナログスイッチ数値微分マフィンティン半径TL431発振回路サーボPC817CUSB直流動作点解析74HC4053補間FFTBSch開発環境パラメトリック解析2ちゃんねるチョッパアンプ量子力学bzqlty電子負荷イジング模型LDA標準ロジックアセンブラ基本並進ベクトルブラべ格子単振り子熱伝導位相図TLP621キュリー温度繰り返し状態方程式MaximaVESTAスイッチト・キャパシタ相対論FETランダムウォークスピン軌道相互作用SMP六方最密充填構造抵抗不規則合金ewidthスレーターポーリング曲線GGAラプラス方程式cygwingfortranQSGW失敗談コバルト条件分岐TLP521テスタLM555Writer509TLP552格子比熱マントルデータロガー自動計測詰め回路ガイガー管ダイヤモンドQNAPMCUFXA-7020ZR過渡解析三角波UPSNE555固有値問題熱力学ブラウン運動フェルミ面awk起電力第一原理計算OpenMPfsolveubuntu最大値xcrysden最小値最適化仮想結晶近似VCA差し込みグラフスーパーセル井戸型ポテンシャル平均場近似シュレディンガー方程式FSMフラクタルOPA2277固定スピンモーメント2SC1815全エネルギー合金multiplotgnuplotc/aTeX結晶磁気異方性interp1ウィグナーザイツ胞初期値マンデルブロ集合疎行列面心立方構造fcc不純物問題非線型方程式ソルバフィルタL10構造PGA半金属二相共存SICZnOウルツ鉱構造BaO重積分クーロン散乱磁気モーメント電荷密度三次元CIF岩塩構造CapSenseノコギリ波デバイ模型ハーフメタル正規分布フォノンquantumESPRESSOルチル構造スワップ領域リジッドバンド模型edelt縮退キーボード軸ラベルグラフの分割凡例トラックボールPC不規則局所モーメント片対数グラフトランス両対数グラフCK1026MAS830L直流解析Excel円周率パラメータ・モデルヒストグラム日本語最小二乗法等価回路モデルGimp線種シンボルTS-110TS-112PIC16F785LMC662化学反応文字列specx.f入出力ifortマテリアルデザインヒストグラム確率論Realforce等高線ジバニャン方程式P-10Ubuntuナイキスト線図Crank-Nicolson法陰解法熱拡散方程式HiLAPWAACircuit連立一次方程式負帰還安定性境界条件EAGLEMBE関数フィッティング

最新コメント
リンク

にほんブログ村 その他趣味ブログ 電子工作へ