CUDA memo (3) aobenchをCUDAで実装。

aobenchという上記画像を吐くプログラムがあります。オリジナルのC言語ソースコードは
http://code.google.com/p/aobenchcl/source/browse/#svn/trunk/ao/c_reference
などに。で、このプログラムが色々な言語で実装したりして速度を競うのが流行った時期がありました。似た様なプログラムにsmallptというものもあります。これらのプログラムはどちらも出力対象のデータ（画像）の要素（ピクセル）ごとの並列性が高い（とあるピクセルの色を求めるために、前のピクセルの値などが必要ない）ので、CUDAなどの並列性の高いアーキテクチャに圧倒的に向いています。

というわけでaobenchをCUDAに移植してみました。以下の256x256の画像がその出力結果です。

元のC実装は約1.42秒、CUDA実装は約0.11秒。画像サイズを2x2から256x256から変化させた場合の実行時間の変化もグラフにしてみました。

縦軸は秒、横軸はピクセルの数です。なんともまあわかりやすい。512以降はなんかCUDA側をちゃんと動かせなかったので256まで。ソースコードは全部githubに。
http://github.com/hogelog/cuda_learn
環境は以下のとおり。