導入事例

高速化/並列化を求めるエンジニア、科学技術、マルチメディアなど広範囲にわたる企業や学術研究所で数多く使用されています。

Lab7 Systems はインテル® Parallel Studio XE とインテル® C++ コンパイラーを使用した最適化により BioBuilds* ツールのパフォーマンスを向上
新しいテクノロジーにより生成される大量のデータを効率良く管理する方法を見つけることは、多くの産業にとって重要な懸案事項です。特に、増え続ける膨大なデータに基づいて画期的な研究が行われているライフサイエンスの世界では、大きな課題となっています。 Lab7 Systems は、生命情報学者、科学者、IT チームの取り組みを支援するため、インテル® Parallel Studio XE を使用してオープンソースの BioBuilds* ツール・コレクションを最適化しています。

Lab7 Systems は、インテル® 64 プラットフォームでパフォーマンスを最大限に引き出すため、インテル® Parallel Studio XE に含まれているツールを利用しました。このツールセットは、現在および次世代のプロセッサーでスケーリングする、優れた C++、Fortran、Python* アプリケーション・パフォーマンスを実現できるように開発者を支援します。また、高速かつ安定した並列コードの作成プロセスを容易にします。
Lab7 Systems は、GNU* コンパイラー・コレクション (GCC) の代わりにインテル® コンパイラーの利用をサポートするようにアップストリームのビルドシステムを変更しました。BioBuilds* 2017.05 の一部のバイナリーのビルドにインテル® C++ コンパイラーを使用したところ、GCC でビルドしたバージョンと比較してパフォーマンスが大幅に向上しました。

「インテル® コンパイラーに含まれる現代のマルチコア・プロセッサーのパフォーマンスを引き出す自動ベクトル化や自動並列化などの最適化により、インテル® 64 アーキテクチャー上で BioBuilds* パッケージのパフォーマンスを大幅に向上することができました。」

Lab7 Systems
主席ソフトウェア・アーキテクト
Cheng Lee 氏
膨大な情報を管理する (PDF)

サンディエゴ・スーパーコンピューター・センター (SDSC) のウォーカー分子動力学研究室では、高度な古典分子力学 (MM) と複合量子/分子力学 (QM/MM) シミュレーションの研究を行っています。 ウォーカー研究室はインテルと協力して、インテル® Parallel Computing Center で、ウォーカーの Amber* 分子動力学ソフトウェアをインテル® Xeon Phi™ コプロセッサーで実行できるようにし、その後インテル® Xeon® プロセッサーとインテル® Xeon Phi™ コプロセッサー両方のアーキテクチャーでパフォーマンスを最適化するプロジェクトを開始しました。

インテル® MKLインテル® MPI ライブラリーを実装したことにより、開発者は最小限の労力で大幅な速度向上を達成できました。エンドユーザーにとってもこの投資は非常に価値のあるものです。」

カリフォルニア大学サンディエゴ校 (UCSD)
サンディエゴ・スーパーコンピューター・センター (SDSC)
ウォーカー分子動力学研究室
Ross Walker 准教授

インテル® VTune™ Amplifier は、コードの最適化で hotspot の特定に役立つ非常に優れたツールです。ユーザー・インターフェイスは使いやすく、詳細な情報を基に開発を迅速に進めることができます。インテル® VTune™ Amplifier の行単位で表示されるパフォーマンス・ カウンターがなければ、精度が混在したコードがオリジナルの倍精度コードより遅くなっていた理由を特定することは できなかったでしょう。」

カリフォルニア大学サンディエゴ校 (UCSD)
サンディエゴ・スーパーコンピューター・センター (SDSC)
ウォーカー分子動力学研究室
Perri Needham 博士研究員
ウォーカー分子動力学研究室のバイオメディカル・ソフトウェアの最適化 (PDF)

インテル® Fortran Composer XE に含まれるインテル® Fortran コンパイラーを使用していますが、新しいオブジェクト・ブラウザーがとても気に入っています。ルーチンが多いモジュールの参照が簡単になりました。コンパイラーも安定しており、素晴らしいパフォーマンスが得られます。我々は小さな会社ですが、インテル® Fortran の大ファンです!

Sugars International LLC マネージャーWarner Weiss 氏

インテル® C++ コンパイラーの特に C++0x サポートが気に入ってます。可変引数テンプレート関数のデフォルトをテストし、SFINAE 式を確認できたのが良かったです。ライブラリー開発者にとって、これはテンプレート・メタプログラミングの煩雑さを大幅に軽減してくれる非常に強力な機能です。

ニューヨーク大学博士課程 Jesse Perla 氏

「要素数が 100 万を超える乗用車の正面衝突シミュレーションを 5 分以内に処理する業界初のシミュレーション・コードを記述することが目標でした。インテル® ソフトウェア開発製品を用いることで、5 分を切るという目標は達成され、全体的なパフォーマンスは約 10 倍になりました。お客様の要件を満たしたことにより、Altair に対する顧客満足度が向上しました。」

Uwe Schramm 博士 HYPERWORKS 部門 CTO, Altair Engineering, Inc.
仮想衝突試験における新しい標準の作成 (PDF)

最新のインテル® Fortran コンパイラー、11.1 をテストしました。これはお勧めの製品です。高速なコードを量産する、非常に安定した信頼性の高いコンパイラー です。11.0 から移行しただけで最大 10% のパフォーマンス向上を達成できました。また、インテルからも質の良いサポートを受けられます。これからも良い仕事を続けてください。

Steve Elgar 殿 WHOI [Woods Hole Oceanographic Institute]Woods Hole, MA

Windows* プラットフォーム用のインテルのコンパイラーにはいつも感心しています。新しいインテル® Visual Fortran Composer XE Windows* 版とインテル® C++ Composer XE Windows* 版は、ガイド付き自動並列化 (GAP) など、パフォーマンスを向上する素晴らしい機能を開発者に提供してくれます。両製品とも、Visual Studio* の最新エディションに問題なく統合されます。強化されたインテル® MKL とインテル® IPP では、さらにパフォーマンスが向上しました。これらのライブラリーはスピードを提供するだけでなく、幅広いアプリケーションをカバーし、エンジニアや科学者にとって優れたビルディング・ブロックです。ご自分の C++/Fortran アプリケーションにパフォーマンス向上を求める開発者は、インテル® ソフトウェア開発製品を試すべきでしょう。

Neubrex. Co., Ltd シニアエンジニア Dr. Artur Guzik

インテル® C++/Fortran コンパイラーを 64 ビットのスレッド化アプリケーションに使用しています。最初に使用したときの印象が非常に良く、ソフトウェアのスレッド化に役立つ Open MP* 3.0 などの新しい機能に満足しています。コンパイラーは安定しており、高速です。10.1 リリースから移行しただけでパフォーマンスが 10% 程度向上しました。ソフトウェアの開発者にはインテルのコンパイラーをお勧めします。

Michael Ehrig 殿 Hewlett-Packard Boeblingen、ドイツ

インテル® Xeon® プロセッサー 5500 番台上でインテル® コンパイラーとインテル® MPI ライブラリーを組み合わせて使用した場合と、Microsoft Visual Studio と MPICH を組み合わせた場合を比較したところ、実に平均 12.25% の性能向上が達成されました。

黒石 浩之 殿 株式会社ソフトウェアクレイドル
マルチコア・プロセッサー向け流体解析ソフトウェアの高速化 (PDF)

インテル コンパイラーで計算機合成ホログラムの計算を行いました。実際の計算では、四則演算のループが中心ですが、特に int 型の計算が速くなりました。コンパイラーの依存性を確かめる実験を行ったところ、計算機合成ホログラムでフレネル近似・cos テーブルというものを用いて int 型の計算を行い、

gcc -O3  21.48 [s]
icc  13.27 [s]
物体点数 284 点

という結果を得ることができました。

また、Core2Duo を使った場合、Linux 上で検証を行ったところ 1 コアに対して 1.98 倍程度のパフォーマンス向上になりました。

千葉大学 伊藤智義研究室 殿

モンテカルロ・シミュレーションによる金融商品のプライシングシステムを開発しております。インテルコンパイラーを用いて、計算時間がどの程度の改善が見られるかを検証を行いました。

マシン: Dell Optiplex 755
OS: Windows VistaR Business 32ビット
CPU: インテルR CoreTM 2 Duo プロセッサー @ 3.00GHz
メモリ: 2GB
コンパイル・オプション: /QxT /QaxT /Qipo
比較対象: Visual C++ 6.0

その結果、計算時間を単純比較して70%ほど早くなりました。

大手ソフトウェア開発エンジニア殿

半導体製造用の内製シミュレーション開発をしております。インテルコンパイラーを使用し、最適化オプション(/O3 /Qip /QxT /Qopenmp)を使用して並列化を行いました。結果、並列化を行う前に比べて約1.5倍のパフォーマンスを得ることができました。これから、インテル VTune アナライザーを使用してOpenMP のチューニング作業を行う予定です。

大手 半導体メーカー エンジニア殿

有限差分時間領域法(FDTD法)を使った電磁界解析シミュレーションソフトを開発しています。インテル・コンパイラーにて最適化オプション (/Qfp-speculationfast /QaxT /QxT /Qparallel)を付加することにより、Visual C++(Win 32)に比べて、計算時間を 40% 短縮 (スループット 1.66 倍) することができました。

大手 光デバイス開発 エンジニア 殿

開発中のアプリケーションの概要、 FDTD法による電磁界シミュレータ(Fortran90互換コードで作製)

OS: Windows XP x64 Edition CPU: Dual Core Xeon(5130) 2.0GHz + 2GByte RAM 使用したコンパイルオプション: /QxT 比較対照となったコンパイラー: Compaq Visual Fortran 6.0

「時間領域差分法を使って電磁界解析を行っています。解析手法では多重ループを多用するので新しいコンパイラに期待して購入しました。コンパイルオプションの最適化を行っていないですし、正確な時間を計ったわけではないのですが、今まで5~6時間かかってやっと終わる計算が3~4時間で完了できるようになりました。高速化の面では今後さらに改善の余地がかなりあります。また、本解析手法ではメモリ使用可能量が解析規模を決めるので、INTEL64に対応して大容量メモリを使えるようになったことが非常に有効だったと感じています。」

国立大学法人 通信系研究室

「平面2次元計算をインテル Fortran コンパイラー Linux 版を使用してコンパイラーの最適化オプション -axp または OpenMP による並列化を使用したところ、OS は異なるものの、DIGITAL Visual Fortran Windows 版に比べて高速化が実現できました。」

  • オプション:-axp で実施した場合
    計算時間 914.1min → 474.4min
  • オプション:-openmp で実施した場合
    計算時間 914.1min → 118.7min
株式会社 水工リサーチ 牛山殿

「Intel C++ Compiler for Mac OS をある画像処理のプログラムで採用したところ処理時間が約1/2になりました。」

Macintosh 向けソフトウェア請負開発エンジニア殿

株式会社ケイ・ジー・ティーでは、3 次元医用画像処理ソフトウェア「Real INTAGE (リアルインテージ)」の開発にインテル コンパイラーを使用し、インテル 64 対応による高速処理のほかインテル Core 2 Duo プロセッサー上でのプログラムの最適化、およびインテル SIMD 命令の活用による高速ボリュームレンダリングを実現しました。

株式会社ケイ・ジー・ティー殿
インテル Core 2 Duo プロセッサー上で医用画像処理を最適化 (PDF)

【アプリケーションの概要】
信用リスク計量のためのモンテカルロ・シミュレーション

【コンパイル・オプション】/02
(注)まだこのソフトの操作に慣れていないため、他のコンパイル・オプションではもっと速くなるのかもしれません。

【比較対象コンパイラ】
Microsoft Visual C++ .NET 2003

【パフォーマンス】
一定のシミュレーション回数での計算時間は、約1/2になりました。シミュレーション ループ内での同一関数の複数呼び出しをインライン化して高速化されたのではないかと推測しています。プログラムを書く段階では、同一の関数は外出しした方がコードがコンパクトになるため好まれますが、プログラムの実行段階のことを考えると、何度も使う関数はインライン化した方が速い、という「当り前のこと」に改めて気づきました。

大手金融機関 開発エンジニア殿

「インテル® Itanium® システム上では GNU と比べて大幅な高速化が実現し、また、インテル® Xeon(TM) プロセッサー搭載システムで構成されるクラスタシステム上ではスピードと安定性が共に優れていました。」

博士 (理学) 池上努 殿
グリッド研究センター 科学技術基盤チーム
独立行政法人 産業技術総合研究所
グリッドシステム全体のパフォーマンスを向上 (PDF)

「インテル® ソフトウェア開発製品を利用して最適化とマルチスレッド化を行うことで、従来の3.5 倍の処理性能を実現することができました。アプリケーションの高速化を短期間で実現するには、VTune(TM) アナライザーやインテル® コンパイラーなど優れた開発ツールが必要不可欠であるといえます。」

大河内俊雄 殿
ソニーデジタルネットワークアプリケーションズ株式会社
デュアルコア向け最適化によるオーディオ変換アルゴリズムの高速化 (PDF)

「私は、関数など "大自由度システムの推定問題" を研究していますが、計算機実験による実証は大変困難です。具体的には、ある非線型微分積分方程式を境界条件の下で数値的に解くことになり、ニュートン法を適用して、10万元程度の連立1次方程式を数万回繰り返し解く作業に帰着させます。

幸い、私の問題の場合には高速な解法が存在することが知られていますが、その他の処理と合わせて、インテルのコンパイラーを用いても 5~6 時間程度の計算時間が掛かります。また、システムサイズを増やせば、すぐに数日から 1 週間程度の計算時間が必要になります。

しかし、やはりインテルのコンパイラーを用いれば、gcc に比べて格段に実行時間が減らせますので、大変役に立っています。」

国立大学 工学部 情報工学科殿

「画像パターンマッチング処理にてインテルコンパイラーを使用した場合、VS.NET2003の場合と比較して評価アルゴリズムの速度が約 30% 向上しました。」

大手 宇宙情報システム開発 会社殿

有限会社ブロードマインより販売されている TRYCUT2000 の中の機能のひとつである OFFSET 処理機能にインテル C++ コンパイラーを利用した際、アプリケーションの実行速度が 40 % 程向上しました。

インテル C++ コンパイラーでパフォーマンスが約 40 % 向上 有限会社ブロードマイン殿

「Oracle9i Database から最大限のパフォーマンスを引き出す必要がありました。これがインテル® コンパイラーを選んだ理由です。」

Mark MacDonald 殿
Windows テクノロジー・グループ、Oracle
Oracle データベースのパフォーマンスの大幅な向上 (PDF)

「GNU C と Linux 版インテル® C++ コンパイラーで当社の標準ベンチマークを実行したところ、インテル® コンパイラーでは最大 37% もパフォーマンスが向上しました。」

Dipankar Choudhury 博士
CTO、Fluent Inc.
Linux 上で高速な流体力学モデリングを実現 (PDF)

「Linux 版インテル® Fortran コンパイラーにより、アプリケーションが 24.5% から 31.5% ほど高速化されました。このパフォーマンスの改善は、われわれのアプリケーションに劇的な変化をもたらしました。」

James Murray 博士
天文学者、システムアドミニストレータ
スインバーン大学天体物理学/スーパーコンピューティング・センター
HPC アプリケーションで宇宙の起源を解明 (PDF)

「スキャンライン レイトレーシングによる3Dレンダリングのコードをインテル C++ コンパイラでコンパイルしたところ、関数のインライン化等コンパイラの性能にかなり依存したコード部分があったことにもより、かなり速度差があって驚きました。

これだけコンパイラの性能があれば保守性、可読性を優先した上で、より上位の基本的アルゴリズムの改良による高速化に専念することができます。

元の環境は VisualC++ 2003 Standard です (オプションは Standard なため /O2 しか選べません)。 その前は VC6.0、CodeWarrior8.0 でもビルドしてましたがこれらは速度的にあまり変わりありませんでした。

使用した インテル C++ コンパイラーのオプションは次の通りです。

Maximize Speed plus High Level Optimization ( /O3 intel )
Global Optimizations: Yes
Inline Function Expansion: Any Suitable
Enable Intrinsic Functions: No
Floating Point Precition Improvement: None
Favor Size or Speed: Favor Fast Code
Omit Frame Pointers: No
Enable Fiber-safe Optimizations: No
Optimize For Windows Application: Yes
Use Intel® Processor Extensions: PenIII
Require Intel Processor Extension: None
Loop Unrolling:
Parallelization: No

最適化オプションをほとんどオフにしたデバッグ用ビルドの場合、VisualC++ 2003 と Intel C++ コンパイラとの速度差はあまりありませんでした。 今後、どのオプションによってどれだけ速くなるのかは検証する予定です。」

レンダリング開発者殿

Lab7 Systems はインテル® Parallel Studio XE とインテル® C++ コンパイラーを使用した最適化により BioBuilds* ツールのパフォーマンスを向上
新しいテクノロジーにより生成される大量のデータを効率良く管理する方法を見つけることは、多くの産業にとって重要な懸案事項です。特に、増え続ける膨大なデータに基づいて画期的な研究が行われているライフサイエンスの世界では、大きな課題となっています。 Lab7 Systems は、生命情報学者、科学者、IT チームの取り組みを支援するため、インテル® Parallel Studio XE を使用してオープンソースの BioBuilds* ツール・コレクションを最適化しています。

Lab7 Systems は、インテル® 64 プラットフォームでパフォーマンスを最大限に引き出すため、インテル® Parallel Studio XE に含まれているツールを利用しました。このツールセットは、現在および次世代のプロセッサーでスケーリングする、優れた C++、Fortran、Python* アプリケーション・パフォーマンスを実現できるように開発者を支援します。また、高速かつ安定した並列コードの作成プロセスを容易にします。
Lab7 Systems は、GNU* コンパイラー・コレクション (GCC) の代わりにインテル® コンパイラーの利用をサポートするようにアップストリームのビルドシステムを変更しました。BioBuilds* 2017.05 の一部のバイナリーのビルドにインテル® C++ コンパイラーを使用したところ、GCC でビルドしたバージョンと比較してパフォーマンスが大幅に向上しました。

「インテル® コンパイラーに含まれる現代のマルチコア・プロセッサーのパフォーマンスを引き出す自動ベクトル化や自動並列化などの最適化により、インテル® 64 アーキテクチャー上で BioBuilds* パッケージのパフォーマンスを大幅に向上することができました。」

Lab7 Systems
主席ソフトウェア・アーキテクト
Cheng Lee 氏
膨大な情報を管理する (PDF)

並列処理により CAD Exchanger ソフトウェアのパフォーマンス、 ユーザー満足度、競合他社に対する優位性を大幅に向上
「CAD Exchanger は、マルチコアシステムにおけるパフォーマンスを向上するためにマルチスレッド・アルゴリズムを広く利用しています。これは競合他社に対する大きな長所です。」と CADEX, Ltd. の Roman Lygin 氏は述べています。ベンチマークでは、さまざまな点で以前のエディションよりもパフォーマンスが向上したことが示されました。

  • いくつかの計算負荷の高いアルゴリズム (ブレンドサーフェス近似など) は、シングルスレッド・モードの 15 倍に高速化されました。
  • マルチスレッドの視覚化は、GUI アプリケーションの応答性を大幅に改善し、ユーザー体験の向上につながりました。待機時間が短縮されたことで、操作やイノベーションに時間をかけることができるようになりました。
  • 並列ファイル I/O は 2.5 倍高速になり、視覚化の時間は 1/4 に短縮されました。

「インテル® Inspector の価値はどれだけ誇張しても足りません。重大な並列性問題を特定し、コードの改善を支援し、リスクを除去する能力に我々は何度も助けられました。」

CADEX Ltd.
CEO Roman Lygin 氏
CAD 形式変換の課題を解決する (PDF)

ロシアのエカテリンブルグにあるウラル連邦大学 (UrFU) は、生物系ソリューションと地球物理学問題のモデリング、大規模なグラフの制御、その他のアプリケーションに、インテル® Parallel Studio XE Cluster Edition に含まれる次のツールを利用しました。

  • C++/Fortran コンパイラー
  • 高速な並列コード向けに最適化されたパフォーマンス・ライブラリー/並列モデル
  • パフォーマンス・プロファイラー、スレッド化設計/プロトタイプ生成ツール、メモリー/スレッドのデバッガー
  • MPI (メッセージ・パッシング・インターフェイス) クラスター通信ライブラリーおよび MPI エラーチェック/チューニング
これらのツールにより、教授と学生は、並列処理を使用するコードの設計、開発、デバッグ、チューニングを簡単に行い、少ない労力で、互換性のあるインテル® プロセッサーおよびコプロセッサー上でアプリケーション・パフォーマンスを大幅に向上できました。

「インテルの協力により、当大学では、広い理論的な知識だけでなく、実践的なソフトウェア開発スキルを備えた専門家を育成しています。学生は、優れたソフトウェア開発ツールを効率良く利用して、現実の科学的な問題を解くことができます。」
「インテル® ソフトウェアは、UrFU の計算クラスターでプログラムの計算時間を大幅に短縮するのに役立ちました。」

ウラル連邦大学 数学・コンピューター・サイエンス研究所
ハイパフォーマンス・コンピューティング委員会会長
Andrey Sozykin 博士
ハイパフォーマンス・コンピューティング教育と研究 (PDF)

シミュレーションで多くの次元 (3 つの空間次元および時間) を扱うため、計算流体力学 (CFD) 解析の計算負荷は非常に高くなります。基礎偏微分方程式の複雑さ、対象の流れ (旅客機の上の流れなど) の複雑な幾何学を表すため に必要なメッシュ解像度などの要因も含まれます。これはハイパフォーマンス・コンピューティングの領域です。
研究者は、複雑なシミュレーション・シナリオの正確な結果を迅速に生成する計算パッケージを設計する方法を常に求めています。

「インテル® Parallel Studio XE Cluster Edition のようなインテル® ソフトウェアを利用することにより、MIPT 研究所は、複雑な物理的流れのモデリングで複雑な計算問題を解く際に、優れた並列スケーラビリティーを達成することができました。」

ロシア科学アカデミー/MIPT ドロドニチン計算センター
指導的研究者
Vladimir Titarev 博士
極超音速機の開発を加速する (PDF)

国立エネルギー研究科学計算センター (NERSC) は、米国エネルギー省の科学局の主要科学計算施設です。NERSC では、インテル® Xeon Phi™ プロセッサーのピーク・パフォーマンスにアプリケーションを最適化するという目標を達成するため、インテル® Parallel Studio XE に含まれるインテル® Advisor のルーフライン解析モデルを使用しました。ルーフライン・モデルは、ローレンス・バークレー国立研究所の計算研究部門のコンピューター科学者、Sam Williams 氏ほかにより提案されたもので、このモデルを使用することで、アプリケーションのパフォーマンスは最大 35% 向上しました。

「複雑なアプリケーションの最適化には、絶対的なパフォーマンスのセンスが必要です。利用可能な多くの最適化手法から、利用すべき手法、パフォーマンスを制限する要因、終了するタイミングを正しく理解することが不可欠なのです。」

NERSC
博士研究員
Tuomas Koskela 博士
ルーフライン解析を利用したアプリケーション・パフォーマンスの最適化 (PDF)

ノボシビルスク大学 (NSU) は、ロシアで有数の研究/教育機関の 1 つで、シベリアで最も大きな大学の 1 つです。大学の研究者が、天体物理学物体シミュレーション (AstroPhi) プロジェクトの一部である、水素イオン化を利用した磁気流体力学 (MHD) 問題の数値計算シミュレーション用ソフトウェア・ツールの開発と最適化を行っているとき、インテル® Xeon Phi™ プロセッサー・ベースのハードウェアでツールのパフォーマンスを最適化する必要がありました。チームがインテル® Advisor インテル® Trace Analyzer & Collector を利用して最適化を行ったところ、パフォーマンスが最大 3 倍に向上し、1 つの問題の計算にかかる時間を 1 週間から 2 日に短縮できました。

「インテル® Xeon Phi™ プロセッサーのインテル® AVX-512 を利用することで、市場で利用可能なほかのアーキテクチャーよりもコードのパフォーマンスを最大限に引き出すことができました。」

インテル® Advisorインテル® Trace Analyzer & Collector を使用することで、ベクトル依存性を排除し、メモリーロード操作を最適化して、インテル® Xeon Phi™ プロセッサー・ベースのアーキテクチャーに適したベクトルと配列サイズを適用することができました。 この最適化により、さまざまな天体物理学のテストを 3 倍以上の速度で実行できるようになりました。」

ノボシビルスク大学
Igor Kulikov 准教授
より効率的な数値シミュレーション (PDF)

シアトルに本社を置く F5 Networks, Inc. は、最高のスピード、安全性、可用性を実現するために必要なツールをアプリケーション開発者に提供しています。F5 の BIG-IP* DNS は、最も近いまたは最もパフォーマンスの高い物理環境、仮想環境、またはクラウド環境にユーザーを誘導することで、アプリケーションのパフォーマンスと可用性を向上させます。

F5 がハードウェアとソフトウェアのソリューションを設計および構築する際に、インテル® Xeon® プロセッサーを含む、インテル製品は不可欠でした。 BIG-IP* DNS の開発に貢献したもう 1 つの重要なインテルのツールは、インテル® Xeon® プロセッサーおよびインテル® Xeon Phi™ プロセッサーでパフォーマンスを最大限に引き出す必要がある HPC、エンタープライズ、クラウド・ソフトウェア開発者やドメイン・スペシャリストのパフォーマンス、生産性、スケーラビリティーを向上する、インテル® Parallel Studio XE に含まれるインテル® VTune™ Amplifier です。

「ハイパフォーマンス・ ネットワーク・システムの 設計および開発中に 潜在的なパフォーマンス・ ボトルネックを特定するのに インテル® VTune™ Amplifier が役立ちました。」

F5 Networks, Inc.
Strategic Initiatives Director
James Hendergart 氏
成功へのプロファイル (PDF)

サンディエゴ・スーパーコンピューター・センター (SDSC) のウォーカー分子動力学研究室では、高度な古典分子力学 (MM) と複合量子/分子力学 (QM/MM) シミュレーションの研究を行っています。 ウォーカー研究室はインテルと協力して、インテル® Parallel Computing Center で、ウォーカーの Amber* 分子動力学ソフトウェアをインテル® Xeon Phi™ コプロセッサーで実行できるようにし、その後インテル® Xeon® プロセッサーとインテル® Xeon Phi™ コプロセッサー両方のアーキテクチャーでパフォーマンスを最適化するプロジェクトを開始しました。

インテル® MKLインテル® MPI ライブラリーを実装したことにより、開発者は最小限の労力で大幅な速度向上を達成できました。エンドユーザーにとってもこの投資は非常に価値のあるものです。」

カリフォルニア大学サンディエゴ校 (UCSD)
サンディエゴ・スーパーコンピューター・センター (SDSC)
ウォーカー分子動力学研究室
Ross Walker 准教授

インテル® VTune™ Amplifier は、コードの最適化で hotspot の特定に役立つ非常に優れたツールです。ユーザー・インターフェイスは使いやすく、詳細な情報を基に開発を迅速に進めることができます。インテル® VTune™ Amplifier の行単位で表示されるパフォーマンス・ カウンターがなければ、精度が混在したコードがオリジナルの倍精度コードより遅くなっていた理由を特定することは できなかったでしょう。」

カリフォルニア大学サンディエゴ校 (UCSD)
サンディエゴ・スーパーコンピューター・センター (SDSC)
ウォーカー分子動力学研究室
Perri Needham 博士研究員
ウォーカー分子動力学研究室のバイオメディカル・ソフトウェアの最適化 (PDF)

インテル® Parallel Studio XE 2016 のコンポーネントである、インテル® C++ コンパイラー、パフォーマンス分析ツール インテル® VTune™ Amplifier、 マルチスレッド化/ベクトル化アドバイザー インテル® Advisor を使った、Pexip 社によるビデオ・エンコーディングのパフォーマンス向上の事例、お客様の声をご紹介しています。

「我々は、シングルスレッドで 1080p100 [フレーム/秒] エンコードという最終的な目標( リファレンス VP8* 実装のパフォーマンスの約 2.5倍)に到達しました。VP8* コードの多くの部分でインテル® AVX2 に対応しました。 インテル® VTune™ Amplifier とインテル® Advisor のベクトル化ツールの使用が成功の鍵でした。」

Pexip 社
主任パフォーマンス・エンジニア
Lars Petter Endresen, PhD 氏
(PDF)

AWE 社は、インテル® Xeon Phi™ コプロセッサーを利用することで、大幅なパフォーマンス向上を実現しました。インテル® ソフトウェア・ツールと標準化されたスケーラブルなメニーコア・アーキテクチ ャーを 、AWE 社の専門技術ならびに高度な HPC ソフトウェアと組み合わせることで、顧客が求める高い精度と信頼性を備えたフォワード・ス ケーリングなアプリケーションを得られました。

インテル® Xeon Phi™ コプロセッサーは、計算物理学の研究にかかるコストと時間の削減、新しいプラットフ ォームへの移植にかかる時間の短縮、そして最新のテクノロ ジーによる専門知識の強化という利点を AWE 社にもたらしました。

AWE 社

AWE 社はイギリスの核抑止力と国防の要として世界有数の最先端の研究、設計、製造施設を有し、卓越した科学技術において中心的役割を果たしています

(PDF)

インテル® Parallel Studio XE 2016 のコンポーネントである、インテル® C++ コンパイラー、パフォーマンス分析ツール インテル® V Tune™ Amplifier XE、 マルチスレッド化/ベクトル化アドバイザー インテル® Advisor を使った、Pexip 社によるビデオ・エンコーディングのパフォーマンス向上の事例、お客様の声をご紹介しています。

「我々は、シングルスレッドで 1080p100 [フレーム/秒] エンコードという最終的な目標( リファレンス VP8* 実装のパフォーマンスの約 2.5倍)に到達しました。VP8* コードの多くの部分でインテル® AVX2 に対応しました。 インテル® VTune™ Amplifier とインテル® Advisor のベクトル化ツールの使用が成功の鍵でした。」

Pexip 社
主任パフォーマンス・エンジニア
Lars Petter Endresen, PhD 氏
Pexip のエンタープライズ・レベルのビデオ会議を高速化 (PDF)

AWE 社は、インテル® Xeon Phi™ コプロセッサーを利用することで、大幅なパフォーマンス向上を実現しました。インテル® ソフトウェア・ツールと標準化されたスケーラブルなメニーコア・アーキテクチ ャーを 、AWE 社の専門技術ならびに高度な HPC ソフトウェアと組み合わせることで、顧客が求める高い精度と信頼性を備えたフォワード・ス ケーリングなアプリケーションを得られました。

インテル® Xeon Phi™ コプロセッサーは、計算物理学の研究にかかるコストと時間の削減、新しいプラットフ ォームへの移植にかかる時間の短縮、そして最新のテクノロ ジーによる専門知識の強化という利点を AWE 社にもたらしました。

AWE 社

AWE 社はイギリスの核抑止力と国防の要として世界有数の最先端の研究、設計、製造施設を有し、卓越した科学技術において中心的役割を果たしています

AWE 社はインテル® Xeon Phi™ コプロ セッサーを利用して HPC 研究アプリケーション・パフォーマンスを向上 (PDF)

Altair は、優れたパフォーマンスと新機能のサポートが重要な分野において顧客の競争力を高めるため、新しいインテル® Xeon Phi™ コプロセッサーをできるだけ早くテストして利用したいと考えていました。

「初めて RADIOSS* 陽解法コードをコプロセッサーに移植することができました。GPU に移植していたらもっと大変だったでしょう。インテル® Xeon Phi™ コプロセッサーだからこそ実現することができました。」

Altair 社
ハイパフォーマンス・ コンピューティング・ディレクター
Eric Lequiniou 氏
インテル® Xeon Phi™ コプロセッサーで複雑なシミュレーションとワークロード管理の高速化に成功 (PDF)

このケーススタディーでは、世界中の設計およびエンジニアリング・プロフェッショナルたちが利用する製品を開発している、業界最先端の設計ソフトウェア企業を紹介します。その代表製品のソースコードは数百万行あり、精巧なワークフローが含まれています。この企業にとって、常に増加する顧客の要求を満たすには、製品を簡単にスケーリングすることが不可欠でした。

「インテル® Advisor は、スレッド・プロトタイピング設計をモデル化する優れた方法を提供します。パフォーマンスとスケーラビリティー予測は実際の経験と一致していました。」

業界最先端の設計ソフトウェア企業
スレッド・プロトタイピングの高速化 (PDF)

インテル® VTune™ Amplifier で提供された情報に基づいてコードを最適化したところ、1 コアの場合でも約 2 倍の大幅なパフォーマンス向上を達成できました。インテル® TBB と OpenMP* の並列化手法を組み合わせることで、スケーラビリティーも向上しました。8 コアでは以前のバージョンの 8 倍以上、16 コアでは約 11 倍のパフォーマンス向上を実現することができたのです。

インテル® Parallel Studio XE を使用して EFD ベース製品のパフォーマンスをさらに向上するという新しい試みは成功を収めました。ハードウェアのパフォーマンスを最大限に引き出せるようになったおかげで、弊社の顧客は設計サイクルをさらに短縮できるようになりました。

メンター・グラフィックス・コーポレーション
メカニカル・アナリシス事業部 研究開発次長
Alexey Andrianov 氏
メンター・グラフィックスの設計サイクルを高速化 (PDF)

(インテル® C++ Composer XE の) 自動ベクトル化の機能が効果的でした。通常ならインテル® Xeon® プロセッサーとインテル® Xeon Phi™ コプロセッサーごとに手作業で行うベクトル化を、すべてコンパイラーに任せることができます。

また、コンパイラーの最適化オプションを使うことで、キャッシュサイズなど細かなパラメーターを指定することなく最高のパフォーマンスを得ることができました。

プログラム・ソース・コードの共有化によって、性能チューニングやメンテナンスは1回で済み、作業効率を高めることができました。これは、プロセッサーごとにソースコードの書き換えが必要な GPGPU と比較して大きなアドバンテージです

日本電気株式会社
グリーンプラットフォーム研究所
主任 石坂 一久 氏
並列処理を用いたプログラム開発を効率化し、SD 映像から HD 映像へのリアルタイム変換を実現 (PDF)

HiFUN、インテル® MPI ライブラリー、インテル® Xeon® プロセッサー・ベースのプラットフォームを組み合わせることで、非常にスケーラブルな CFD ソリューションを提供することができるでしょう。

「相対的な容易さを備えた複雑なジオメトリーをシミュレートする機能、定常状態へ迅速に収束する Matrix-free 陰解法を用いることにより、ソルバーを効率良い強固なものにしています。」

S & I Engineering Solutions Pvt. Ltd.
ディレクター
Nikhil V Shende 氏
航空宇宙工学のスーパーコンピューティングにおける並列化の利点を実証 (PDF)

インテル® C++ Composer XE で自動ベクトル化した場合は約 1.3倍、SSE 化した場合は 2倍のパフォーマンス向上を実現。さらにハンド・チューニングで AVX化 すると、スカラーバージョンと比較して約 2.5倍のパフォーマンスが向上することを確認しました。

インテル® VTune™ Amplifier を使えば、高速化するための改善ポイントが視覚的に確認できます。現在となっては、インテル® VTune™ Amplifier なくしてプロファイリングすることはできません。

株式会社フィックスターズ M³事業推進室
シニアディレクター 古坂 大地 氏
CG 向け高速レンダラーの開発を効率化し、パフォーマンスと生産性向上を実現 (PDF)

インテル® ソフトウェア開発ツールを使用することで、PIPESIM* のパフォーマンスを以前のバージョンの約 10 倍に向上させることができました。大幅なパフォーマンスの向上は、弊社の顧客に多大な恩恵をもたらし、弊社の競争力も向上しました。

開発者は、先を急ぐあまり、強引に問題を解決しようとすることがあります。しかし、長い目で見れば、たとえ時間がかかっても、生産性と効率を高めるツールを利用するアプローチのほうがはるかに良いでしょう。最初にやや時間をかけることで、後でより多くの時間を節約できるです。

Schlumberger.Ltd
シニア・サイエンティスト
Rodney Lessard 氏
石油ガス・ソフトウェアを並列化 (PDF)

インテル® Parallel Studio XE Windows* 版の解析機能にはうれしい驚きを感じました。特に、インテル® Parallel Studio XE に含まれるインテル® Inspector のメモリーおよびスレッド検出機能に感動しました。アプリケーションで変更を行い、再度解析し、その '前' と '後' の効果を簡単に比較できることは素晴らしいと思います。(インテル® Parallel Studio XE に含まれる) インテル® C++ Composer XEのコンパイラーは非常に強固なコンパイラーだと思います。ガイド付き自動並列化 (GAP) とアレイ・ノーテーション機能は、パフォーマンス向上に非常に役立ちました。インテル® Parallel Studio XE は Visual Studio* を使用する開発者に多くの機能をもたらしてくれます。

Ionix オーナー
Erik Van Grunderbeeck 氏

インテル® Parallel Studio XE のスタティック・セキュリティー解析ツールは、簡単な設定で直観的に使用できます。そのユーザー・インターフェイスにより、特定のエラーのクラスやプロジェクトの特定のファイルに注目することができます。不要なものはフィルターで外すことができ、コードの変更後も、そのままフィルターをセットしておけます。これは、ただテキストを出力するツールよりも大きな利点があります。

MWH Soft 社
Mark Lewy 氏

「リアルタイム・トランスコード・アプリケーションである4Caster C4* 製品の品質を改良して、最高のビデオ品質で最高のパフォーマンスの製品を迅速に市場に投入することが目標でした。インテル® Parallel Studio XE のスタティック・セキュリティー解析 (SSA) 機能を使用したところ、エンコーディング・チームに報告されるバグの数が少なくなり、開発者の生産性と市場への投入時間がどちらも改善されました。」

高度画像処理チーム・マネージャー、Envivio 社
Jean Kypreos 氏
最高のビデオ品質とパフォーマンスを保証 (PDF)

インテル® Parallel Studio XE を使用してインテル® AVX 向けにソフトウェアを最適化することにより、hotspot は 10 倍も速く検出され、HDR イメージのレンダリングが 1.3 倍も高速になりました。

Nik Software 社
HDR のレンダリング速度が 1.3 倍に向上 (PDF)
  • インテル® Xeon® プロセッサー・ファミリーを搭載したクラスター型スーパーコンピューター
  • C++/Fortran プログラマーおよび MPI アプリケーション開発者向け総合ツール インテル® Cluster Studio XE

「スーパーコンピューター本体と電気料金の合計で予算が決まる運用体制において、最大限のパフォーマンスを発揮するためには、インテル® ノード・マネージャー (インテル® Xeon® プロセッサー・ファミリーが搭載) のリアルタイム電力監視機能と、消費電力の上限を設定できるパワー・キャッピングを活用した電力の最適化が欠かせません」

科学研究機構 国立天文台天文シミュレーションプロジェクト
プロジェクト長博士 (学術)
小久保 英一郎 氏
消費電力を可視化し、スーパーコンピューターの消費電力を最適化 (PDF)

「MPI プログラムのチューニングでインテル トレース・アナライザー/コレクターが大変役立ちました。インテル トレース・アナライザー/コレクターで解析したところ、MPI の通信で、ノンブロッキング通信を多数発行しているところで性能が出ていないことが発見でき、これを1対1のブロッキング通信に分割したところ、通信時間は半分程度に高速化されました。 また、インテル トレース・コレクターでプログラムに情報を埋め込むことで、各関数の実行時間やロードバランスを調べることができ、高速化すべきところが容易にわかるようになりました。」

独立行政法人 理化学研究所
戎崎計算宇宙物理研究室 博士(理学)
古石 貴裕 殿

理化学研究所は、物理学、化学、工学、生物学、医科学など幅広い分野にわたり、基礎 研究から応用研究まで多様な研究活動を展開しています。

(インテル® Cluster Studio XE は) 「インテル・プロセッサーとの親和性が高く、他の x86 系プロセッサーとの相性のよさを評価しました。各ツールの性能をベンチマークした結果も良好で、十分に満足できるレベルに達しています。さらにソフトウェア・スタックのラインナップも豊富で、ユーザビリティーの高さも魅力でした。」

京都大学 学術情報メディアセンター
センター長 教授 工学博士
中島 浩 氏
1202 ソケットの大規模クラスター型スーパーコンピューターを構築 (PDF)

「通信全体のコストを簡単に特定でき、さらに各 MPI ルーチンで費やされた時間に細分化できます。プロセス数に関係なく、ロード・インバランスの程度と原因も簡単に特定することが可能です。メッセージの統計表示機能は、通信を行っているプロセッサーがグリッド上に表示されて全体を概観できる、特に役立つ機能です。また、シミュレーションの進行に応じて、通信モードで費やされた時間の参照やフォーカスができるのも便利な機能です。」

SDSC
Dominic Holland 氏

「FEKO 電磁界コードは、さまざまな並列環境 (例: さまざまなサイズのクラスター、共有メモリーマシン) で実行され、並列化が容易ではない複雑な数値アルゴリズムを利用しています。インテル® トレース・アナライザー/コレクターは、FEKO 並列通信パターン、さらにメッセージパッシングの最適化に非常に役立ちました。その結果、ISV 電磁気クラスター・アプリケーションで優れたパフォーマンスを発揮させることができました。」

Ing. Ulrich Jakobus 博士
テクニカル・ディレクター
EM Software & Systems

「インテル® クラスター・ツールキットを評価し、インテルのソフトウェア・ツールを使用することでインテル® プラットフォーム上でより優れたパフォーマンスを得られるという結論に達しました。インテルのコンパイラーにより、各アプリケーションでこれまでにないパフォーマンスが得られ、また、インテル® クラスター・ツールキットによって、クラスターシステムがどのように実行されているか、そしてどのように改善できるかを理解できました。インテル® クラスター・ツールキットを購入しましたが、これは、新しくインテル® プロセッサー・ベースのクラスターシステムを購入する最も重要な理由の 1 つでした。」

Jinwoo Park 氏
SPCC シニア・システム・マネージャー
ソウル市立大学校、韓国

「インテル® ソリューションを利用したことで、大規模クラスターの設計をを行い、ソフトウェアのパフォーマンスを最大限に引き出すことができました。」

The Australian Centre for Advanced Computing and Communications (ac3)
TFLOPS の壁を越えることができた (英語、PDF)

SoftLab-NSK はインテルのテクノロジーを使用して 4K HEVC ビデオ・エンコーダーとプレイアウト・サーバーの機能を 1 台に集約
SoftLab-NSK は、プレイアウト・サーバーの主力製品である Forward T ラインを拡張するにあたり、最も効率的なビデオ・トランスコード・ソリューションを調査しました。調査の結果、プレイアウト・サーバーの出力から 4K HEVC ビデオのデコード、処理、エンコード、放送をサポートする下記のインテルのテクノロジーが採用されました。

  • インテル® クイック・シンク・ビデオは、インテル® グラフィックス・テクノロジーが提供する専用のメディア処理機能を利用して、エンコード/デコード時間を大幅に短縮します。それと同時に、プロセッサーがほかの処理も並行して実行できるようにすることで、システムの全体的なパフォーマンスと応答性を向上させます。
  • インテル® Media SDK (インテル® Media Server Studio の一部) は、Windows* および組込み Linux* で、UHD ビデオのエンコードなどのメディア・アプリケーションを開発するためのクロスプラットフォーム API です。

「4K HEVC ビデオの処理には非常に高い計算能力が必要です。インテル® クイック・シンク・ ビデオ・テクノロジーを使用することで、シングル・プロセッサーのプレイアウト・サーバーで同時にビデオのデコード、処理、エンコードが可能な、コスト効率に優れたハイパフォーマンスで 低消費電力のユニバーサルな放送ソリューションをユーザーに提供して、UHDTV への移行を促すことができました。」

SoftLab-NSK
マルチメディア部門ディレクター
Michael Shadrin 氏
ユニバーサルな UHD 放送ソリューションの構築 (PDF)

サンディエゴ・スーパーコンピューター・センター (SDSC) のウォーカー分子動力学研究室では、高度な古典分子力学 (MM) と複合量子/分子力学 (QM/MM) シミュレーションの研究を行っています。 ウォーカー研究室はインテルと協力して、インテル® Parallel Computing Center で、ウォーカーの Amber* 分子動力学ソフトウェアをインテル® Xeon Phi™ コプロセッサーで実行できるようにし、その後インテル® Xeon® プロセッサーとインテル® Xeon Phi™ コプロセッサー両方のアーキテクチャーでパフォーマンスを最適化するプロジェクトを開始しました。

インテル® MKLインテル® MPI ライブラリーを実装したことにより、開発者は最小限の労力で大幅な速度向上を達成できました。エンドユーザーにとってもこの投資は非常に価値のあるものです。」

カリフォルニア大学サンディエゴ校 (UCSD)
サンディエゴ・スーパーコンピューター・センター (SDSC)
ウォーカー分子動力学研究室
Ross Walker 准教授

インテル® VTune™ Amplifier は、コードの最適化で hotspot の特定に役立つ非常に優れたツールです。ユーザー・インターフェイスは使いやすく、詳細な情報を基に開発を迅速に進めることができます。インテル® VTune™ Amplifier の行単位で表示されるパフォーマンス・ カウンターがなければ、精度が混在したコードがオリジナルの倍精度コードより遅くなっていた理由を特定することは できなかったでしょう。」

カリフォルニア大学サンディエゴ校 (UCSD)
サンディエゴ・スーパーコンピューター・センター (SDSC)
ウォーカー分子動力学研究室
Perri Needham 博士研究員
ウォーカー分子動力学研究室のバイオメディカル・ソフトウェアの最適化 (PDF)

「インテル® MKL から、最新のインテル® SSL ライブラリーのサブセットを呼び出して作業しています。特に分散/共分散法やロバスト法などの計算に使用していますが、非常に好調です。」

REvolutionComputing 殿

「インテル® MKL を使用したことで、ベンチマークの結果が43~71%向上しました。この結果は非常に感動的です。」

ABAQUS, Inc. 殿

「高速化前の構造解析プログラムでは、大規模な計算を行うため計算時間がかかるという問題がありました。プログラムを調査したところ、その大部分は行列ソルバーが占めていました。そこで、スカイライン法を用いていたソルバーの部分をインテル® MKL の PARDISO に変更することで高速化を図りました。」

構造解析プログラムでの並列化・高速化事例
千葉大学 野口・柏崎研究室 殿 (http://hnlab.ta.chiba-u.jp/)

「SIMD 演算を利用したいと考えていたので、本製品にはそのためのクラスライブラリが含まれているので、大変満足しました。ただ、Fvec クラスから Ivec クラスへの変換(F32vec4toI32vec4、F32vec4toI32vec8 など 4 要素を一括して変換する関数)などの型変換を充実させ、これら変換を実現する利用方法の詳細を説明したドキュメントが揃っているとより使いやすくなると思います。」

国内大手研究機関殿

「私たちは非線形構造解析プログラムを開発しており、開発環境、エンドユーザー環境としてIntelCPU のマシンを想定しています。それに伴い、コンパイラー、数値計算ライブラリーはインテル社製のものを使わせていただいております。

プログラムの内容は、①行列の設定、②境界条件の設定、③行列の求解、④解の更新で、非線形性が強いとこれらを数千回以上繰り返します。計算時間の多くを占めるのは③の部分になります。MKLライブラリを用いることによりここが非常に高速化でき、しかもDual、Quad などのマシンを用いるとおよそ1.5倍、2倍の高速化が実現できました。

この計算性能はハイエンドワークステーションと比較しても2倍くらいで、今まで一昼夜かけて計算していたものが半日で行えることになり、非常に有効です。また③以外の部分は現在並列化できていないけれど、今後スレッド化手法により並列高速化が可能と思われ取り組んでいく予定です。」

株式会社 計算力学研究センター 荒川 殿

「インテル® MKL ルーチンは優れた品質と充実度を誇る NAG ライブラリーを完全に補完する役割を果たします。これらを組み合わせることで、NAG のユーザーは多岐にわたる高性能コンポーネントを利用できるようになっています。」

数値演算性能の最適化
Brian Ford 博士 常務取締役、NAG Ltd.
数値演算性能の最適化 (PDF)

「PAM-CRASH (衝撃・衝突解析ソフトウェア) とPAM-STAMP (プレス成形解析ソフトウェア) は、インテルRMKL のパフォーマンスに依存しています。私たちは、メモリ使用量とSMP (対称型マルチプロセッサー) パフォーマンスの両方の結果に満足しています。」

ESI Computational Structural Mechanics Group 殿

「インテル® MKL は、ANSYS が、インテル® プロセッサー上での高いパフォーマンスを発揮するのを助け、10 年以上にわたり、私たちの工学シミュレーション・ソフトウェアの動力となっています。インテル® MKL を使用したインテル・マルチコア・プロセッサーは、私たちが、ワークステーションからサーバシステムまで幅広く、高いパフォーマンスを発揮するのに役立っています。インテル® MKL による継続的な最適化は、ANSYS ソフトウェアのユーザーにとって、最新のインテル® プロセッサー上での、最善のパフォーマンスを保障します。」

ANSYS, Inc. 殿

「半導体の検査装置で使用しているアプリケーションの開発をおこなっています。インテル IPP 5.3 および インテル C++ コンパイラーを使用しました。結果、飛躍的なパフォーマンスの向上に成功しました。」

大手 メカトロニクス開発エンジニア 殿
結果 (PDF)

「良質で高解像度のビデオ映像を個人のデスクで視聴したり、または移動中に鑑賞できる機能が求められています。ImageCom では、このような要望に応えるアプリケーションを提供しています。このアプリケーションの開発には、インテル® インテグレーテッド・パフォーマンス・プリミティブおよびインテル® C++ コンパイラーがその最適化において重要な役割を果たしています。」

Thomas Dove 殿 CEO、ImageCom
成功への近道 (PDF)

「自社の画像処理システムを開発する際にインテル IPP ライブラリを導入したところ、従来の C++ 言語で開発した画像処理と比べて、2 ~ 10 倍のパフォーマンスの向上がありました。」

国内エンジニアリング会社殿
使用した IPP 関数と処理時間の改善具合
IPP 関数 処理時間 元の処理時間 処理内容
ippiFilter_8u_C1R 2.2 msec 4.0 msec 4.0 msec 8 近傍フィルター(ノイズ除去)
ippiFilter_8u_C1R 2.2 msec 10.2 msec 8 近傍フィルター(シャープ化)
ippiFilterMedian_8u_C1R 1.1 msec 48 msec メディアン・フィルター
ippiFilterLaplace_8u_C1R 1.6 msec 9.6 msec ラプラシアン・フィルター
ippiAbsDiff_8u_C1R 1.6 msec 2.6 msec 2 画面差分
ippiCompareC_8u_C1R 0.3 msec 1.8 msec 2 値化

並列処理により CAD Exchanger ソフトウェアのパフォーマンス、 ユーザー満足度、競合他社に対する優位性を大幅に向上
「CAD Exchanger は、マルチコアシステムにおけるパフォーマンスを向上するためにマルチスレッド・アルゴリズムを広く利用しています。これは競合他社に対する大きな長所です。」と CADEX, Ltd. の Roman Lygin 氏は述べています。ベンチマークでは、さまざまな点で以前のエディションよりもパフォーマンスが向上したことが示されました。

  • いくつかの計算負荷の高いアルゴリズム (ブレンドサーフェス近似など) は、シングルスレッド・モードの 15 倍に高速化されました。
  • マルチスレッドの視覚化は、GUI アプリケーションの応答性を大幅に改善し、ユーザー体験の向上につながりました。待機時間が短縮されたことで、操作やイノベーションに時間をかけることができるようになりました。
  • 並列ファイル I/O は 2.5 倍高速になり、視覚化の時間は 1/4 に短縮されました。

「インテル® Inspector の価値はどれだけ誇張しても足りません。重大な並列性問題を特定し、コードの改善を支援し、リスクを除去する能力に我々は何度も助けられました。」

CADEX Ltd.
CEO Roman Lygin 氏
CAD 形式変換の課題を解決する (PDF)

インテル® TBB の新しいフローグラフ機能を使用することで、これまで不可能だった、数千の相互に関連する非常に大きなタスクグラフを約1 週間で並列化することができました。

Robert Link 殿 Pacific Northwest National Laboratory GCAM

「没入型でリアルなゲーム環境の開発をサポートするため、マルチコア PC の能力を活用する必要がありました。インテル® TBB を使用したことで、The Creative Assembly のプログラマーは、提供されるコアの数に応じてスケーリングされるストラテジー・ゲーム用の将来性の高いエンジンを作成し、プロセッサーによる制限から解放されました。以前よりもシステム要件が低くなったにもかかわらず、より大きなアニメー ションが追加されたことで、Napoleon: Total War* が提供するユーザー 体験はよりリアルになり、圧倒的な臨場感を実現しました。」

Yuri O’Donnell 殿 The Creative Assembly 社
思わず引き込まれるリアルな PC ゲームの世界を実現 (PDF)

シミュレーションで多くの次元 (3 つの空間次元および時間) を扱うため、計算流体力学 (CFD) 解析の計算負荷は非常に高くなります。基礎偏微分方程式の複雑さ、対象の流れ (旅客機の上の流れなど) の複雑な幾何学を表すため に必要なメッシュ解像度などの要因も含まれます。これはハイパフォーマンス・コンピューティングの領域です。
研究者は、複雑なシミュレーション・シナリオの正確な結果を迅速に生成する計算パッケージを設計する方法を常に求めています。

「インテル® Parallel Studio XE Cluster Edition のようなインテル® ソフトウェアを利用することにより、MIPT 研究所は、複雑な物理的流れのモデリングで複雑な計算問題を解く際に、優れた並列スケーラビリティーを達成することができました。」

ロシア科学アカデミー/MIPT ドロドニチン計算センター
指導的研究者
Vladimir Titarev 博士
極超音速機の開発を加速する (PDF)

ロシアのエカテリンブルグにあるウラル連邦大学 (UrFU) は、生物系ソリューションと地球物理学問題のモデリング、大規模なグラフの制御、その他のアプリケーションに、インテル® Parallel Studio XE Cluster Edition に含まれる次のツールを利用しました。

  • C++/Fortran コンパイラー
  • 高速な並列コード向けに最適化されたパフォーマンス・ライブラリー/並列モデル
  • パフォーマンス・プロファイラー、スレッド化設計/プロトタイプ生成ツール、メモリー/スレッドのデバッガー
  • MPI (メッセージ・パッシング・インターフェイス) クラスター通信ライブラリーおよび MPI エラーチェック/チューニング
これらのツールにより、教授と学生は、並列処理を使用するコードの設計、開発、デバッグ、チューニングを簡単に行い、少ない労力で、互換性のあるインテル® プロセッサーおよびコプロセッサー上でアプリケーション・パフォーマンスを大幅に向上できました。

「インテルの協力により、当大学では、広い理論的な知識だけでなく、実践的なソフトウェア開発スキルを備えた専門家を育成しています。学生は、優れたソフトウェア開発ツールを効率良く利用して、現実の科学的な問題を解くことができます。」
「インテル® ソフトウェアは、UrFU の計算クラスターでプログラムの計算時間を大幅に短縮するのに役立ちました。」

ウラル連邦大学 数学・コンピューター・サイエンス研究所
ハイパフォーマンス・コンピューティング委員会会長
Andrey Sozykin 博士
ハイパフォーマンス・コンピューティング教育と研究 (PDF)

国立エネルギー研究科学計算センター (NERSC) は、米国エネルギー省の科学局の主要科学計算施設です。NERSC では、インテル® Xeon Phi™ プロセッサーのピーク・パフォーマンスにアプリケーションを最適化するという目標を達成するため、インテル® Parallel Studio XE に含まれるインテル® Advisor のルーフライン解析モデルを使用しました。ルーフライン・モデルは、ローレンス・バークレー国立研究所の計算研究部門のコンピューター科学者、Sam Williams 氏ほかにより提案されたもので、このモデルを使用することで、アプリケーションのパフォーマンスは最大 35% 向上しました。

「複雑なアプリケーションの最適化には、絶対的なパフォーマンスのセンスが必要です。利用可能な多くの最適化手法から、利用すべき手法、パフォーマンスを制限する要因、終了するタイミングを正しく理解することが不可欠なのです。」

NERSC
博士研究員
Tuomas Koskela 博士
ルーフライン解析を利用したアプリケーション・パフォーマンスの最適化 (PDF)

ノボシビルスク大学 (NSU) は、ロシアで有数の研究/教育機関の 1 つで、シベリアで最も大きな大学の 1 つです。大学の研究者が、天体物理学物体シミュレーション (AstroPhi) プロジェクトの一部である、水素イオン化を利用した磁気流体力学 (MHD) 問題の数値計算シミュレーション用ソフトウェア・ツールの開発と最適化を行っているとき、インテル® Xeon Phi™ プロセッサー・ベースのハードウェアでツールのパフォーマンスを最適化する必要がありました。チームがインテル® Advisor インテル® Trace Analyzer & Collector を利用して最適化を行ったところ、パフォーマンスが最大 3 倍に向上し、1 つの問題の計算にかかる時間を 1 週間から 2 日に短縮できました。

「インテル® Xeon Phi™ プロセッサーのインテル® AVX-512 を利用することで、市場で利用可能なほかのアーキテクチャーよりもコードのパフォーマンスを最大限に引き出すことができました。」

インテル® Advisorインテル® Trace Analyzer & Collector を使用することで、ベクトル依存性を排除し、メモリーロード操作を最適化して、インテル® Xeon Phi™ プロセッサー・ベースのアーキテクチャーに適したベクトルと配列サイズを適用することができました。 この最適化により、さまざまな天体物理学のテストを 3 倍以上の速度で実行できるようになりました。」

ノボシビルスク大学
Igor Kulikov 准教授
より効率的な数値シミュレーション (PDF)

並列処理により CAD Exchanger ソフトウェアのパフォーマンス、 ユーザー満足度、競合他社に対する優位性を大幅に向上
「CAD Exchanger は、マルチコアシステムにおけるパフォーマンスを向上するためにマルチスレッド・アルゴリズムを広く利用しています。これは競合他社に対する大きな長所です。」と CADEX, Ltd. の Roman Lygin 氏は述べています。ベンチマークでは、さまざまな点で以前のエディションよりもパフォーマンスが向上したことが示されました。

  • いくつかの計算負荷の高いアルゴリズム (ブレンドサーフェス近似など) は、シングルスレッド・モードの 15 倍に高速化されました。
  • マルチスレッドの視覚化は、GUI アプリケーションの応答性を大幅に改善し、ユーザー体験の向上につながりました。待機時間が短縮されたことで、操作やイノベーションに時間をかけることができるようになりました。
  • 並列ファイル I/O は 2.5 倍高速になり、視覚化の時間は 1/4 に短縮されました。

「インテル® Inspector の価値はどれだけ誇張しても足りません。重大な並列性問題を特定し、コードの改善を支援し、リスクを除去する能力に我々は何度も助けられました。」

CADEX Ltd.
CEO Roman Lygin 氏
CAD 形式変換の課題を解決する (PDF)

シアトルに本社を置く F5 Networks, Inc. は、最高のスピード、安全性、可用性を実現するために必要なツールをアプリケーション開発者に提供しています。F5 の BIG-IP* DNS は、最も近いまたは最もパフォーマンスの高い物理環境、仮想環境、またはクラウド環境にユーザーを誘導することで、アプリケーションのパフォーマンスと可用性を向上させます。

F5 がハードウェアとソフトウェアのソリューションを設計および構築する際に、インテル® Xeon® プロセッサーを含む、インテル製品は不可欠でした。 BIG-IP* DNS の開発に貢献したもう 1 つの重要なインテルのツールは、インテル® Xeon® プロセッサーおよびインテル® Xeon Phi™ プロセッサーでパフォーマンスを最大限に引き出す必要がある HPC、エンタープライズ、クラウド・ソフトウェア開発者やドメイン・スペシャリストのパフォーマンス、生産性、スケーラビリティーを向上する、インテル® Parallel Studio XE に含まれるインテル® VTune™ Amplifier です。

「ハイパフォーマンス・ ネットワーク・システムの 設計および開発中に 潜在的なパフォーマンス・ ボトルネックを特定するのに インテル® VTune™ Amplifier が役立ちました。」

F5 Networks, Inc.
Strategic Initiatives Director
James Hendergart 氏
成功へのプロファイル (PDF)

サンディエゴ・スーパーコンピューター・センター (SDSC) のウォーカー分子動力学研究室では、高度な古典分子力学 (MM) と複合量子/分子力学 (QM/MM) シミュレーションの研究を行っています。 ウォーカー研究室はインテルと協力して、インテル® Parallel Computing Center で、ウォーカーの Amber* 分子動力学ソフトウェアをインテル® Xeon Phi™ コプロセッサーで実行できるようにし、その後インテル® Xeon® プロセッサーとインテル® Xeon Phi™ コプロセッサー両方のアーキテクチャーでパフォーマンスを最適化するプロジェクトを開始しました。

インテル® MKLインテル® MPI ライブラリーを実装したことにより、開発者は最小限の労力で大幅な速度向上を達成できました。エンドユーザーにとってもこの投資は非常に価値のあるものです。」

カリフォルニア大学サンディエゴ校 (UCSD)
サンディエゴ・スーパーコンピューター・センター (SDSC)
ウォーカー分子動力学研究室
Ross Walker 准教授

インテル® VTune™ Amplifier は、コードの最適化で hotspot の特定に役立つ非常に優れたツールです。ユーザー・インターフェイスは使いやすく、詳細な情報を基に開発を迅速に進めることができます。インテル® VTune™ Amplifier の行単位で表示されるパフォーマンス・ カウンターがなければ、精度が混在したコードがオリジナルの倍精度コードより遅くなっていた理由を特定することは できなかったでしょう。」

カリフォルニア大学サンディエゴ校 (UCSD)
サンディエゴ・スーパーコンピューター・センター (SDSC)
ウォーカー分子動力学研究室
Perri Needham 博士研究員
ウォーカー分子動力学研究室のバイオメディカル・ソフトウェアの最適化 (PDF)

ロシアのエカテリンブルグにあるウラル連邦大学 (UrFU) は、生物系ソリューションと地球物理学問題のモデリング、大規模なグラフの制御、その他のアプリケーションに、インテル® Parallel Studio XE Cluster Edition に含まれる次のツールを利用しました。

  • C++/Fortran コンパイラー
  • 高速な並列コード向けに最適化されたパフォーマンス・ライブラリー/並列モデル
  • パフォーマンス・プロファイラー、スレッド化設計/プロトタイプ生成ツール、メモリー/スレッドのデバッガー
  • MPI (メッセージ・パッシング・インターフェイス) クラスター通信ライブラリーおよび MPI エラーチェック/チューニング
これらのツールにより、教授と学生は、並列処理を使用するコードの設計、開発、デバッグ、チューニングを簡単に行い、少ない労力で、互換性のあるインテル® プロセッサーおよびコプロセッサー上でアプリケーション・パフォーマンスを大幅に向上できました。

「インテルの協力により、当大学では、広い理論的な知識だけでなく、実践的なソフトウェア開発スキルを備えた専門家を育成しています。学生は、優れたソフトウェア開発ツールを効率良く利用して、現実の科学的な問題を解くことができます。」
「インテル® ソフトウェアは、UrFU の計算クラスターでプログラムの計算時間を大幅に短縮するのに役立ちました。」

ウラル連邦大学 数学・コンピューター・サイエンス研究所
ハイパフォーマンス・コンピューティング委員会会長
Andrey Sozykin 博士
ハイパフォーマンス・コンピューティング教育と研究 (PDF)

新しいインターフェイスはとても使いやすく、気に入っています。インテル® VTune™ Amplifier により、hotspot の特定と最適化による効果の評価に不可欠な正確かつ詳細なパフォーマンス・データが得られました。

Nik Software Inc.パフォーマンス・エンジニア Daniel Schwarz 氏

インテル® VTune™ Amplifier のおかげで作業が簡単になり、開発プロセスがスピードアップしました。さらに、パフォーマンスも 20% ~ 360% 向上しました。

Open Cascade SAS 社 Sergey Zaritchny 氏

「VTune™ アナライザーはソフトウエア開発者専用のツールのように思われがちですが、システム・インテグレーションの分野においても解析ツールとして十分に活用することができます。」

渡邊周二 殿 SAP ジャパン株式会社/アライアンス本部

「基本的なパフォーマンス・チューニングの作業を完了すると、パフォーマンスが 20~50% も向上しました。」

Arvind Amin 博士 NEC Solutions (America), Inc.
高性能コンピューティングに最適化されたソリューション (PDF)

「インテル® VTune パフォーマンス・アナライザーは、新機能追加時に多発するパフォーマンス悪化の早期発見に役立ちます。この迅速な分析によって、パフォーマンス問題を修正しやすい開発サイクルのうちから、高いパフォーマンス・レベルを維持できるようになります。インテル® VTune パフォーマンス・アナライザーにより、日々の開発業務への統合が容易になりました。」

Abaqus Inc. 殿

「自社ミドルウェア製品のサーバー・アプリケーションを開発する際、VTune アナライザーのコールグラフ・プロファイリングを採取した結果、不要なファイルのアクセス処理、およびある同期処理で必要以上に Sleep 処理が行われていることが発見されました。これらの 2 つを改善した結果、30% から 50% の性能改善がみられました。」

大手ソリューション プロバイダ殿
時間がかかるレンダリングの解析に VTune アナライザーを活用 (PDF)

インテル® VTune アナライザーLinux* 版は、とても素晴らしいです。有効なデータを得るのが、迅速かつ簡単です。私はこのツールをおすすめします。私は今まで、必要な情報をこれほど容易に得られるツールに出会ったことがありません。」

Abaqus Inc. 殿

並列処理により CAD Exchanger ソフトウェアのパフォーマンス、 ユーザー満足度、競合他社に対する優位性を大幅に向上
「CAD Exchanger は、マルチコアシステムにおけるパフォーマンスを向上するためにマルチスレッド・アルゴリズムを広く利用しています。これは競合他社に対する大きな長所です。」と CADEX, Ltd. の Roman Lygin 氏は述べています。ベンチマークでは、さまざまな点で以前のエディションよりもパフォーマンスが向上したことが示されました。

  • いくつかの計算負荷の高いアルゴリズム (ブレンドサーフェス近似など) は、シングルスレッド・モードの 15 倍に高速化されました。
  • マルチスレッドの視覚化は、GUI アプリケーションの応答性を大幅に改善し、ユーザー体験の向上につながりました。待機時間が短縮されたことで、操作やイノベーションに時間をかけることができるようになりました。
  • 並列ファイル I/O は 2.5 倍高速になり、視覚化の時間は 1/4 に短縮されました。

「インテル® Inspector の価値はどれだけ誇張しても足りません。重大な並列性問題を特定し、コードの改善を支援し、リスクを除去する能力に我々は何度も助けられました。」

CADEX Ltd.
CEO Roman Lygin 氏
CAD 形式変換の課題を解決する (PDF)

インテル® Inspector の直感的なユーザー・インターフェイスと強力な検出機能により、コード中のメモリー/スレッドエラーをすぐに特定することができ、生産性が向上しました。使いやすいインテル® Inspector は、検出の種類やレベルをカスタマイズでき、メモリーやマルチスレッド・コーディングの不具合をより素早く効率的に発見できて、時間の節約になりました。

Euriware 社 Sergey Zaritchny 氏

弊社は画像処理とオブジェクト検出を行っています。ソースから画像を取り出し、フレームを複数のスレッドに分けて並列処理しています。インテル® Inspector を使用することで、ソースからフレームに処理する際の隠れたデータ競合を発見しました。この問題のソリューションにより、フレームをより速く処理する方法を見つけられ、結果として処理自体が高速になり、アプリケーションの安定性が向上しました。

OTRADA Inc CEO、CTO Alex Migdalski 氏

ノボシビルスク大学 (NSU) は、ロシアで有数の研究/教育機関の 1 つで、シベリアで最も大きな大学の 1 つです。大学の研究者が、天体物理学物体シミュレーション (AstroPhi) プロジェクトの一部である、水素イオン化を利用した磁気流体力学 (MHD) 問題の数値計算シミュレーション用ソフトウェア・ツールの開発と最適化を行っているとき、インテル® Xeon Phi™ プロセッサー・ベースのハードウェアでツールのパフォーマンスを最適化する必要がありました。チームがインテル® Advisor インテル® Trace Analyzer & Collector を利用して最適化を行ったところ、パフォーマンスが最大 3 倍に向上し、1 つの問題の計算にかかる時間を 1 週間から 2 日に短縮できました。

「インテル® Xeon Phi™ プロセッサーのインテル® AVX-512 を利用することで、市場で利用可能なほかのアーキテクチャーよりもコードのパフォーマンスを最大限に引き出すことができました。」

インテル® Advisorインテル® Trace Analyzer & Collector を使用することで、ベクトル依存性を排除し、メモリーロード操作を最適化して、インテル® Xeon Phi™ プロセッサー・ベースのアーキテクチャーに適したベクトルと配列サイズを適用することができました。 この最適化により、さまざまな天体物理学のテストを 3 倍以上の速度で実行できるようになりました。」

ノボシビルスク大学
Igor Kulikov 准教授
より効率的な数値シミュレーション (PDF)

購入

技術情報

サポート