方法: combinable を使用してパフォーマンスを向上させる
次の使用例を使用する方法を示しています、 concurrency::combinable 内の数値の合計を計算するには、クラス、 std::array プライムとオブジェクト。combinable クラスは、共有状態を解消することでパフォーマンスを向上します。
ヒント |
---|
場合によっては、マップに対応 (concurrency::parallel_transform) との削減 (同時実行:: parallel_reduce) 経由でのパフォーマンスの向上を実現できるcombinable。使用マップし、この例と同じ結果を生成する操作を削減する例についてを参照してください並列アルゴリズム。 |
使用例
次の例では、std::accumulate 関数を使用して、配列に含まれる素数の要素の合計を計算します。この例では、a は array オブジェクトであり、入力値が素数であるかどうかを判定するために is_prime 関数を使用します。
prime_sum = accumulate(begin(a), end(a), 0, [&](int acc, int i) {
return acc + (is_prime(i) ? i : 0);
});
次の例では、前の例の並列化を単純な方法で示します。次の使用例を使用して、 concurrency::parallel_for_each 配列を並行処理するアルゴリズムと、 concurrency::critical_section オブジェクトへのアクセスを同期する、 prime_sum変数。この例では、共有リソースが使用できるようになるのを各スレッドが待機する必要があるため、効率は改善されません。
critical_section cs;
prime_sum = 0;
parallel_for_each(begin(a), end(a), [&](int i) {
cs.lock();
prime_sum += (is_prime(i) ? i : 0);
cs.unlock();
});
combinable オブジェクトを使用して、前の例のパフォーマンスを向上する例を次に示します。この例では、同期オブジェクトが不要となっています。combinable オブジェクトを使用することにより、各スレッドがタスクを独立して実行できるため、効率が改善されます。
通常、combinable オブジェクトは次の手順で使用します。最初に、処理を並列で実行して、詳細な計算結果を生成します。次に、この計算結果を結合 (換算) して最終結果を生成します。次の使用例を使用して、 concurrency::combinable::local ローカル合計への参照を取得するメソッド。次を使用して、 concurrency::combinable::combine メソッドと std::plus オブジェクトがローカルの計算に、最終的な結果を結合します。
combinable<int> sum;
parallel_for_each(begin(a), end(a), [&](int i) {
sum.local() += (is_prime(i) ? i : 0);
});
prime_sum = sum.combine(plus<int>());
次のコード例全体では、素数の合計を逐次処理と並列処理の両方で計算します。この例では、両方の計算に要する時間もコンソールに出力します。
// parallel-sum-of-primes.cpp
// compile with: /EHsc
#include <windows.h>
#include <ppl.h>
#include <array>
#include <numeric>
#include <iostream>
using namespace concurrency;
using namespace std;
// Calls the provided work function and returns the number of milliseconds
// that it takes to call that function.
template <class Function>
__int64 time_call(Function&& f)
{
__int64 begin = GetTickCount();
f();
return GetTickCount() - begin;
}
// Determines whether the input value is prime.
bool is_prime(int n)
{
if (n < 2)
return false;
for (int i = 2; i < n; ++i)
{
if ((n % i) == 0)
return false;
}
return true;
}
int wmain()
{
// Create an array object that contains 200000 integers.
array<int, 200000> a;
// Initialize the array such that a[i] == i.
iota(begin(a), end(a), 0);
int prime_sum;
__int64 elapsed;
// Compute the sum of the numbers in the array that are prime.
elapsed = time_call([&] {
prime_sum = accumulate(begin(a), end(a), 0, [&](int acc, int i) {
return acc + (is_prime(i) ? i : 0);
});
});
wcout << prime_sum << endl;
wcout << L"serial time: " << elapsed << L" ms" << endl << endl;
// Now perform the same task in parallel.
elapsed = time_call([&] {
combinable<int> sum;
parallel_for_each(begin(a), end(a), [&](int i) {
sum.local() += (is_prime(i) ? i : 0);
});
prime_sum = sum.combine(plus<int>());
});
wcout << prime_sum << endl;
wcout << L"parallel time: " << elapsed << L" ms" << endl << endl;
}
4 つのプロセッサを備えたコンピューターを使用したときのサンプル出力を次に示します。
1709600813
serial time: 6178 ms
1709600813
parallel time: 1638 ms
コードのコンパイル
コードをコンパイルするには、コピーし、Visual Studio プロジェクト内に貼り付けるまたはという名前のファイルに貼り付けて並列 primes.cpp の合計のと、Visual Studio のコマンド プロンプト ウィンドウで次のコマンドを実行します。
cl.exe /EHsc parallel-sum-of-primes.cpp
信頼性の高いプログラミング
使用マップし、同じ結果を生成する操作を削減する例についてを参照してください並列アルゴリズム。