AkaiKKRとOpenMP並列化

AkaiKKR(machikaneyama)ではOpenMPを用いた並列計算を行うに際して、August 26, 2015に公開されたバージョンから OMP_NUM_THREADS などの環境変数を設定する必要が無くなったようです。その反面、並列化する際のスレッド数の制御もできなくなりました。

今回は、それよりも古いバージョンであるMay 22, 2015を使って、計算に使うスレッドの数と計算時間の関係を調べました。

001_20150915141750561.png

Fig.1: スレッド数と計算時間の関係。計算時間は単一スレッドで計算した時間で規格化してある。スレッド数を増やすごとに計算時間が短縮されていく。短縮の度合いは、計算する物質の種類にはほとんど依存しない事がわかる。


その結果、少なくとも私が思っていたよりは、効率的に計算速度が上がっており、何も考えずに全スレッドを使った計算をしてしまってもよさそうな感触を得ました。


OpenMPによる並列化


August 26, 2015よりも以前のバージョンのAkaiKKR(machikaneyama)でもOpenMPを用いた並列化が可能でしたが、August 26, 2015のバージョンでは並列化に対する考え方が変わったようです。

以前はOpenMPを使うためには OMP_NUM_THREADS などの環境変数を設定しなければなりませんでした。この点は、初めてAkaiKKRをインストールする初心者にとって躓きやすいポイントでした(参考:AkaiKKR掲示板の6548 コンパイルスレッド)。August 26, 2015では、環境変数を設定する必要が無くなりコンパイラを指定してmakeするだけでOpenMP並列版のバイナリを作成、実行することができるようです。

その反面、以前は OMP_NUM_THREADS に実際のCPUのスレッド数よりも小さい値を指定することによって、使用するスレッドの数を制限することができていました。August 26, 2015では(少なくとも同じ方法では)スレッドの数を制限できなくなってしまいました。

並列化による速度の上昇


AkaiKKRはコヒーレントポテンシャル近似(CPA)を用いた合金の計算が得意です。従って、使われる用途は必然的に広い組成の範囲を持った合金の計算になりがちです。例えばAkaiKKRでFeCoの磁気モーメントと格子定数では、鉄とコバルトの二元合金に対して、コバルト濃度を0%から100%まで10%刻みで計算しています。

このような計算をするときに、CPUを並列化して組成を一種類ずつ順番に計算していく場合と、それぞれの計算にはCPUを1スレッドずつしか使わずに、複数の組成を平行して計算する場合の、どちらの方が高速に計算を終えることができるのか気になります。
そこで今回は、スレッド数と計算時間の関係をAugust 26, 2015よりも以前のバージョンであるMay 22, 2015で調べました。

計算条件


2015年9月の第27回CMDワークショップに参加させていただき、9月末まで大阪大学のコンピューターを使わせていただけるという事なのでcmd2の私のアカウントにMay 22, 2015のバージョンをインストールして計算を行いました。

計算セルの大きさやCPAの有無によってどの程度の影響があるのかを知るため、もっとも単純なbccFe, CPAを用いたfccNi50Fe50, 計算セルに5個の原子を持ち三成分のCPAを行う立方晶Sr(Ti0.97Ta0.02Ni0.01)O3ペロフスカイト, かなりオープンな構造であるため多量の空港を入れてあるグラファイトの4種類の計算を行いました。

#!/bin/csh -f

## *** プロジェクト名 ***
set PROJECT="Fe"
#set PROJECT="NiFe"
#set PROJECT="SrTiO3"
#set PROJECT="graphite"

setenv OMP_STACKSIZE 100M
limit stacksize unlimited

# ## スレッド数 6
setenv OMP_NUM_THREADS 6
echo "OMP_NUM_THREADS=6"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_6.out

## スレッド数 5
setenv OMP_NUM_THREADS 5
echo "OMP_NUM_THREADS=5"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_5.out

## スレッド数 4
setenv OMP_NUM_THREADS 4
echo "OMP_NUM_THREADS=4"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_4.out

## スレッド数 3
setenv OMP_NUM_THREADS 3
echo "OMP_NUM_THREADS=3"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_3.out

## スレッド数 2
setenv OMP_NUM_THREADS 2
echo "OMP_NUM_THREADS=2"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_2.out

## スレッド数 1
setenv OMP_NUM_THREADS 1
echo "OMP_NUM_THREADS=1"
time ~/old/cpa2002v009c/specx < in/${PROJECT}.in > out/${PROJECT}_1.out


結果


Fig.1はスレッドの数と計算時間の関係をプロットしたものです。
CPUの処理時間は、それぞれの物質を単一スレッドで計算したときの値を1として規格化してあります。
したがって、理想的に言えば2スレッドを使った時には時間が1/2になり、3スレッドを使った時には1/3となる、といったように減少していってほしいところです。実際には多少のオーバーヘッドがありもう少し長い時間がかかっています。

スレッド数を増していくほど並列化の効果は減っていきますが、6スレッド程度までなら並列化の効果が頭打ちになってしまうという事はないようです。また、結晶構造の複雑さに応じて、並列化の効果が変わるのではないかと予想していましたが、結果を見る限りほとんど影響はないようです。

計算してみる前は、状況に応じて並列化の有無をコントロールすることで、効率よく計算ができるのではないかと考えていましたが、結果を見る限り全てOpenMP並列化でやってしまってもよさそうな気がします。
August 26, 2015にバージョンアップすることにより、OMP_NUM_THREADSで並列化数のコントロールができなくなりますが、それでもOpenMP関連に関しては、デメリットよりもメリットの方が大きそうです。

関連エントリ




参考URL




付録


このエントリで使用したファイルを添付します。ファイル名末尾の".txt"を削除して、"_"を"."に変更すれば使えるはずです。(参考:ねがてぃぶろぐの付録)


参考文献/使用機器




フィードバック



にほんブログ村 その他趣味ブログ 電子工作へ

 ↑ 電子工作ブログランキング参加中です。1クリックお願いします。


コメント・トラックバックも歓迎です。 ↓      


 ↓ この記事が面白かった方は「拍手」をお願いします。


tag: AkaiKKR machikaneyama KKR CPA OpenMP 

comment

Secret

FC2カウンター
カテゴリ
ユーザータグ

LTspiceAkaiKKRmachikaneyamaScilabKKRPSoCOPアンプPICCPA強磁性常微分方程式モンテカルロ解析odeトランジスタ状態密度インターフェーススイッチング回路ecaljPDS5022DOS定電流半導体シェルスクリプト乱数レベルシフトHP6632Aブレッドボード分散関係温度解析R6452Aトランジスタ技術I2C可変抵抗反強磁性セミナー数値積分確率論偏微分方程式バンド構造非線形方程式ソルババンドギャップ絶縁熱設計シュミットトリガLEDA/Dコンバータ三端子レギュレータLM358ISO-I2CGW近似カオスフォトカプラマフィンティン半径TL431数値微分PC817Cアナログスイッチ直流動作点解析発振回路USBサーボカレントミラー74HC4053パラメトリック解析LDAbzqltyチョッパアンプ量子力学FFT2ちゃんねるアセンブラBSch開発環境電子負荷ブラべ格子イジング模型補間基本並進ベクトル標準ロジック単振り子キュリー温度繰り返しMaxima状態方程式失敗談相対論スピン軌道相互作用FETランダムウォーク熱伝導六方最密充填構造コバルトewidthTLP621GGAQSGW不規則合金位相図抵抗SMPcygwinラプラス方程式スレーターポーリング曲線gfortranスイッチト・キャパシタ詰め回路TLP552三角波格子比熱TLP521条件分岐LM555MCUNE555QNAPマントルテスタ過渡解析FXA-7020ZRダイヤモンドデータロガーガイガー管自動計測Writer509UPSシュレディンガー方程式ブラウン運動awk差し込みグラフ熱力学平均場近似仮想結晶近似VCAfsolve井戸型ポテンシャルVESTA起電力スーパーセルOpenMP第一原理計算ubuntu固有値問題L10構造OPA2277interp12SC1815fccウィグナーザイツ胞面心立方構造フィルタジバニャン方程式ヒストグラム確率論マテリアルデザインspecx.f等高線正規分布PGAフェルミ面非線型方程式ソルバ初期値固定スピンモーメントスワップ領域ルチル構造リジッドバンド模型edeltquantumESPRESSO岩塩構造BaOSIC二相共存ZnOウルツ鉱構造フォノンデバイ模型c/aノコギリ波全エネルギーFSMTeXgnuplotmultiplotハーフメタルCapSense半金属合金結晶磁気異方性Ubuntu文字列入出力TS-110TS-112疎行列Excel直流解析ヒストグラム円周率不規則局所モーメントトラックボールPC等価回路モデルパラメータ・モデルキーボードRealforce三次元マンデルブロ集合フラクタル化学反応重積分縮退日本語最小二乗法関数フィッティングGimpMAS830LHiLAPW熱拡散方程式両対数グラフナイキスト線図負帰還安定性陰解法Crank-Nicolson法P-10クーロン散乱境界条件連立一次方程式片対数グラフEAGLEPIC16F785LMC662トランスシンボルCK1026線種凡例MBEAACircuitグラフの分割軸ラベルifort

最新コメント
リンク

にほんブログ村 その他趣味ブログ 電子工作へ