CUDA 4.1のRC版が一般の開発者向けに公開になっています.
http://developer.nvidia.com/content/new-cuda-now-available
CUDA compilerがLLVMベースになって,10%のパフォーマンスアップや画像処理のためのNVIDIA Performance Primitives libraryやVisual Profilerの再設計などが行われてるようですね.
ダウンロード
http://developer.nvidia.com/cuda-toolkit-41