| ・導入事例、お客様の声 インテル® コンパイラー インテル® VTune パフォーマンス・アナライザー インテル® クラスター・ツールキット ライブラリー製品 ・SPEC CPU 2000 ベンチマーク測定結果 ・ビデオ集 |
導入事例、お客様の声
インテル® ソフトウェア開発ツールは、今日、ソフトウェアの高速化/並列化を求めるエンジニア、科学技術、マルチメディアなど広範囲にわたる企業や学術研究所で数多く使用されています。
インテル® コンパイラー
|
インテル コンパイラーで計算機合成ホログラムの計算を行いました。実際の計算では、四則演算のループが中心ですが、特に int 型の計算が速くなりました。コンパイラーの依存性を確かめる実験を行ったところ、計算機合成ホログラムでフレネル近似・cos テーブルというものを用いて int 型の計算を行い、
gcc -O3 21.48 [s] という結果を得ることができました。 また、Core2Duo を使った場合、Linux 上で検証を行ったところ 1 コアに対して 1.98 倍程度のパフォーマンス向上になりました。 マシン: Dell Optiplex 755 OS: Windows VistaR Business 32ビット CPU: インテルR CoreTM 2 Duo プロセッサー @ 3.00GHz メモリ: 2GB コンパイル・オプション: /QxT /QaxT /Qipo 比較対象: Visual C++ 6.0 その結果、計算時間を単純比較して70%ほど早くなりました。
大手ソフトウェア開発エンジニア殿
大手 半導体メーカー エンジニア殿
大手 光デバイス開発 エンジニア 殿
FDTD法による電磁界シミュレータ(Fortran90互換コードで作製) OS: Windows XP x64 Edition CPU: Dual Core Xeon(5130) 2.0GHz + 2GByte RAM 使用したコンパイルオプション: /QxT 比較対照となったコンパイラー: Compaq Visual Fortran 6.0 「時間領域差分法を使って電磁界解析を行っています。解析手法では多重ループを多用するので新しいコンパイラに期待して購入しました。コンパイルオプションの最適化を行っていないですし、正確な時間を計ったわけではないのですが、今まで5〜6時間かかってやっと終わる計算が3〜4時間で完了できるようになりました。高速化の面では今後さらに改善の余地がかなりあります。また、本解析手法ではメモリ使用可能量が解析規模を決めるので、INTEL64に対応して大容量メモリを使えるようになったことが非常に有効だったと感じています。」
国立大学法人 通信系研究室
・オプション:-axp で実施した場合 計算時間 914.1min → 474.4min ・オプション:-openmp で実施した場合 計算時間 914.1min → 118.7min
株式会社 水工リサーチ 牛山殿
Macintosh 向けソフトウェア請負開発エンジニア殿
信用リスク計量のためのモンテカルロ・シミュレーション 【コンパイル・オプション】/02 (注)まだこのソフトの操作に慣れていないため、他のコンパイル・オプションではもっと速くなるのかもしれません。 【比較対象コンパイラ】 Microsoft Visual C++ .NET 2003 【パフォーマンス】 一定のシミュレーション回数での計算時間は、約1/2になりました。シミュレーション ループ内での同一関数の複数呼び出しをインライン化して高速化されたのではないかと推測しています。プログラムを書く段階では、同一の関数は外出しした方がコードがコンパクトになるため好まれますが、プログラムの実行段階のことを考えると、何度も使う関数はインライン化した方が速い、という「当り前のこと」に改めて気づきました。 大手金融機関 開発エンジニア殿
株式会社ケイ・ジー・ティーでは、3 次元医用画像処理ソフトウェア「Real INTAGE (リアルインテージ)」の開発にインテル コンパイラーを使用し、インテル 64 対応による高速処理のほかインテル Core 2 Duo プロセッサー上でのプログラムの最適化、およびインテル SIMD 命令の活用による高速ボリュームレンダリングを実現しました。 「インテル® Itanium® システム上では GNU と比べて大幅な高速化が実現し、また、インテル® Xeon(TM) プロセッサー搭載システムで構成されるクラスタシステム上ではスピードと安定性が共に優れていました。」 博士 (理学) 池上努 殿
グリッド研究センター 科学技術基盤チーム 独立行政法人 産業技術総合研究所 「インテル® ソフトウェア開発製品を利用して最適化とマルチスレッド化を行うことで、従来の3.5 倍の処理性能を実現することができました。アプリケーションの高速化を短期間で実現するには、VTune(TM) アナライザーやインテル® コンパイラーなど優れた開発ツールが必要不可欠であるといえます。」 大河内俊雄 殿
ソニーデジタルネットワークアプリケーションズ株式会社 幸い、私の問題の場合には高速な解法が存在することが知られていますが、その他の処理と合わせて、インテルのコンパイラーを用いても 5〜6 時間程度の計算時間が掛かります。また、システムサイズを増やせば、すぐに数日から 1 週間程度の計算時間が必要になります。 しかし、やはりインテルのコンパイラーを用いれば、gcc に比べて格段に実行時間が減らせますので、大変役に立っています。」
国立大学 工学部 情報工学科殿
大手 宇宙情報システム開発 会社殿
有限会社ブロードマインより販売されている TRYCUT2000 の中の機能のひとつである OFFSET 処理機能にインテル C++ コンパイラーを利用した際、アプリケーションの実行速度が 40 % 程向上しました。 「Oracle9i Database から最大限のパフォーマンスを引き出す必要がありました。これがインテル® コンパイラーを選んだ理由です。」 Mark MacDonald 殿
Windows テクノロジー・グループ、Oracle 「GNU C と Linux 版インテル® C++ コンパイラーで当社の標準ベンチマークを実行したところ、インテル® コンパイラーでは最大 37% もパフォーマンスが向上しました。」 Dipankar Choudhury 博士
CTO、Fluent Inc. 「Linux 版インテル® Fortran コンパイラーにより、アプリケーションが 24.5% から 31.5% ほど高速化されました。このパフォーマンスの改善は、われわれのアプリケーションに劇的な変化をもたらしました。」 James Murray 博士
天文学者、システムアドミニストレータ スインバーン大学天体物理学/スーパーコンピューティング・センター これだけコンパイラの性能があれば保守性、可読性を優先した上で、より上位の基本的アルゴリズムの改良による高速化に専念することができます。 元の環境は VisualC++ 2003 Standard です。 (オプションは Standard なため /O2 しか選べません。) その前は VC6.0、CodeWarrior8.0 でもビルドしてましたがこれらは速度的にあまり変わりありませんでした。 使用した インテル C++ コンパイラーのオプションは次の通りです。 Maximize Speed plus High Level Optimization ( /O3 intel ) Global Optimizations: Yes Inline Function Expansion: Any Suitable Enable Intrinsic Functions: No Floating Point Precition Improvement: None Favor Size or Speed: Favor Fast Code Omit Frame Pointers: No Enable Fiber-safe Optimizations: No Optimize For Windows Application: Yes Use Intel® Processor Extensions: PenIII Require Intel Processor Extension: None Loop Unrolling: Parallelization: No 最適化オプションをほとんどオフにしたデバッグ用ビルドの場合、VisualC++ 2003 と Intel C++ コンパイラとの速度差はあまりありませんでした。 今後、どのオプションによってどれだけ速くなるのかは検証する予定です。」
レンダリング開発者殿
|
インテル® VTune パフォーマンス・アナライザー
| 時間がかかるレンダリングの解析に VTune アナライザーを活用 「VTune(TM) アナライザーはソフトウエア開発者専用のツールのように思われがちですが、システム・インテグレーションの分野においても解析ツールとして十分に活用することができます。」 渡邊周二 殿
コンピテンス・センター テクニカルマネージャ SAP ジャパン株式会社/アライアンス本部 大手ソリューション プロバイダ殿
「基本的なパフォーマンス・チューニングの作業を完了すると、パフォーマンスが 20〜50% も向上しました。」 Arvind Amin 博士
HPC アプリケーション担当プロジェクト・マネージャ NEC Solutions (America), Inc. |
インテル® クラスター・ツールキット
| 理化学研究所: 「MPI プログラムのチューニングでインテル トレース・アナライザー/コレクターが大変役立ちました。インテル トレース・アナライザー/コレクターで解析したところ、MPI の通信で、ノンブロッキング通信を多数発行しているところで性能が出ていないことが発見でき、これを1対1のブロッキング通信に分割したところ、通信時間は半分程度に高速化されました。 また、インテル トレース・コレクターでプログラムに情報を埋め込むことで、各関数の実行時間やロードバランスを調べることができ、高速化すべきところが容易にわかるようになりました。」
理化学研究所は、物理学、化学、工学、生物学、医科学など幅広い分野にわたり、基礎 研究から応用研究まで多様な研究活動を展開しています。
博士(理学) 古石 貴裕 殿
戎崎計算宇宙物理研究室 独立行政法人 理化学研究所 SDSC: 「通信全体のコストを簡単に特定でき、さらに各 MPI ルーチンで費やされた時間に細分化できます。プロセス数に関係なく、ロード・インバランスの程度と原因も簡単に特定することが可能です。メッセージの統計表示機能は、通信を行っているプロセッサーがグリッド上に表示されて全体を概観できる、特に役立つ機能です。また、シミュレーションの進行に応じて、通信モードで費やされた時間の参照やフォーカスができるのも便利な機能です。」
Dominic Holland 氏
SDSC ソウル市立大学校:「インテル® クラスター・ツールキットを評価し、インテルのソフトウェア・ツールを使用することでインテル® プラットフォーム上でより優れたパフォーマンスを得られるという結論に達しました。インテルのコンパイラーにより、各アプリケーションでこれまでにないパフォーマンスが得られ、また、インテル® クラスター・ツールキットによって、クラスターシステムがどのように実行されているか、そしてどのように改善できるかを理解できました。インテル® クラスター・ツールキットを購入しましたが、これは、新しくインテル® プロセッサー・ベースのクラスターシステムを購入する最も重要な理由の 1 つでした。」
Jinwoo Park 氏
SPCC シニア・システム・マネージャー ソウル市立大学校、韓国 EM Software & Systems:「FEKO 電磁界コードは、さまざまな並列環境 (例: さまざまなサイズのクラスター、共有メモリーマシン) で実行され、並列化が容易ではない複雑な数値アルゴリズムを利用しています。インテル® トレース・アナライザー/コレクターは、FEKO 並列通信パターン、さらにメッセージパッシングの最適化に非常に役立ちました。その結果、ISV 電磁気クラスター・アプリケーションで優れたパフォーマンスを発揮させることができました。」
Ing. Ulrich Jakobus 博士
テクニカル・ディレクター EM Software & Systems TFLOPS の壁を越えることができた
「インテル® ソリューションを利用したことで、大規模クラスターの設計をを行い、ソフトウェアのパフォーマンスを最大限に引き出すことができました。」 The Australian Centre for Advanced Computing and Communications (ac3)
|
ライブラリー製品
|
「私たちは非線形構造解析プログラムを開発しており、開発環境、エンドユーザー環境としてIntelCPU のマシンを想定しています。それに伴い、コンパイラー、数値計算ライブラリーはインテル社製のものを使わせていただいております。 プログラムの内容は @行列の設定、A境界条件の設定、B行列の求解、C解の更新で、非線形性が強いとこれらを数千回以上繰り返します。計算時間の多くを占めるのはBの部分になります。MKLライブラリを用いることによりここが非常に高速化でき、しかもDual、Quad などのマシンを用いるとおよそ1.5倍、2倍の高速化が実現できました。 この計算性能はハイエンドワークステーションと比較しても2倍くらいで、今まで一昼夜かけて計算していたものが半日で行えることになり、非常に有効です。 またB以外の部分は現在並列化できていないけれど、今後スレッド化手法により並列高速化が可能と思われ取り組んでいく予定です。」
株式会社 計算力学研究センター 荒川 殿
大手 メカトロニクス開発エンジニア 殿
国内大手研究機関殿
国内エンジニアリング会社殿
「良質で高解像度のビデオ映像を個人のデスクで視聴したり、または移動中に鑑賞できる機能が求められています。ImageCom では、このような要望に応えるアプリケーションを提供しています。このアプリケーションの開発には、インテル® インテグレーテッド・パフォーマンス・プリミティブおよびインテル® C++ コンパイラーがその最適化において重要な役割を果たしています。」 Thomas Dove 殿
CEO、ImageCom 「インテル® MKL ルーチンは優れた品質と充実度を誇る NAG ライブラリーを完全に補完する役割を果たします。これらを組み合わせることで、NAG のユーザーは多岐にわたる高性能コンポーネントを利用できるようになっています。」 Brian Ford 博士
常務取締役、NAG Ltd. |
|||||||||||||||||||||||||||||||||||||||||
SPEC CPU 2000 ベンチマーク測定結果
- Intel Compiler for Windows と SmartHeap を使用した場合
- Intel Compiler for Linux を使用した場合
※株式会社 日立製作所殿よりご提供いただいた、インテル コンパイラーを使用したベンチマーク情報です。
ビデオ集
並列スレッドの速度比較検証デモ (ダウンロード - 5.9MB)
- 高解像度画像のレンダリングを 4 スレッドと 2 スレッドで行った際の処理速度の違いを検証
マルチコア・プロセッサーの仕組みを解明 (ダウンロード - 1.8MB)
- ハイパー・スレッディング・テクノロジー・プロセッサー、デュアルコア・プロセッサーでのスレッド実行の違いを解明