アクセラレータおよび accelerator_view オブジェクトの使用

[アーティクル]
04/03/2023

accelerator クラスと accelerator_view クラスを使用して、C++ AMP コードを実行するためのデバイスまたはエミュレーターを指定できます。システムには、メモリの量、共有メモリサポート、デバッグサポート、または倍精度サポートによって異なる複数のデバイスまたはエミュレーターがある場合があります。 C++ Accelerated Massive Parallelism (C++ AMP) には、使用できるアクセラレータの調査、既定としての設定、parallel_for_each の複数の呼び出しのための複数の accelerator_views の指定、特別なデバッグタスクの実行のために使用できる API が用意されています。

Note

C++ AMP ヘッダーは、Visual Studio 2022 バージョン 17.0 以降では非推奨です。 AMP ヘッダーを含めると、ビルドエラーが発生します。警告をサイレント状態にするには、AMP ヘッダーを含める前に _SILENCE_AMP_DEPRECATION_WARNINGS を定義します。

既定のアクセラレータを使用する

C++ AMP ランタイムでは、特定のアクセラレータを選択するコードを記述しない限り、既定のアクセラレータが選択されます。ランタイムは次のように既定のアクセラレータを選択します。

アプリがデバッグモードで実行されている場合は、デバッグをサポートするアクセラレータ。
それ以外の場合は、 CPPAMP_DEFAULT_ACCELERATOR 環境変数で指定されたアクセラレータ (設定されている場合)。
または、エミュレートされていないデバイス。
または、使用できるメモリ量が最大のデバイス。
または、ディスプレイにアタッチされていないデバイス。

また、ランタイムは既定のアクセラレータとして access_type の access_type_auto を指定します。つまり、既定のアクセラレータで共有メモリがサポートされていて、そのパフォーマンス特性 (帯域幅と待機時間) が専用 (非共有) メモリと同じであることがわかっている場合は、共有メモリが使用されます。

既定のアクセラレータを構築し、プロパティを調べることによって、既定のアクセラレータのプロパティを確認できます。次のコード例では、既定のアクセラレータのパス、アクセラレータメモリの量、共有メモリサポート、倍精度サポート、および制限された倍精度のサポートを出力します。

void default_properties() {
    accelerator default_acc;
    std::wcout << default_acc.device_path << "\n";
    std::wcout << default_acc.dedicated_memory << "\n";
    std::wcout << (accs[i].supports_cpu_shared_memory ?
        "CPU shared memory: true" : "CPU shared memory: false") << "\n";
    std::wcout << (accs[i].supports_double_precision ?
        "double precision: true" : "double precision: false") << "\n";
    std::wcout << (accs[i].supports_limited_double_precision ?
        "limited double precision: true" : "limited double precision: false") << "\n";
}

CPPAMP_DEFAULT_ACCELERATOR 環境変数

CPPAMP_DEFAULT_ACCELERATOR 環境変数を設定して、既定のアクセラレータの accelerator::device_path を指定できます。パスはハードウェアに依存します。次のコードは、accelerator::get_all 関数を使用して、使用できるアクセラレータの一覧を取得し、各アクセラレータのパスと特性を表示します。

void list_all_accelerators()
{
    std::vector<accelerator> accs = accelerator::get_all();

    for (int i = 0; i <accs.size(); i++) {
        std::wcout << accs[i].device_path << "\n";
        std::wcout << accs[i].dedicated_memory << "\n";
        std::wcout << (accs[i].supports_cpu_shared_memory ?
            "CPU shared memory: true" : "CPU shared memory: false") << "\n";
        std::wcout << (accs[i].supports_double_precision ?
            "double precision: true" : "double precision: false") << "\n";
        std::wcout << (accs[i].supports_limited_double_precision ?
            "limited double precision: true" : "limited double precision: false") << "\n";
    }
}

アクセラレータの選択

アクセラレータを選択するには、accelerator::get_all メソッドを使用して、使用できるアクセラレータの一覧を取得し、プロパティに基づいて 1 つを選択します。この例では、最も多くのメモリを持つアクセラレータを選択する方法を示しています。

void pick_with_most_memory()
{
    std::vector<accelerator> accs = accelerator::get_all();
    accelerator acc_chosen = accs[0];

    for (int i = 0; i <accs.size(); i++) {
        if (accs[i].dedicated_memory> acc_chosen.dedicated_memory) {
            acc_chosen = accs[i];
        }
    }

    std::wcout << "The accelerator with the most memory is "
        << acc_chosen.device_path << "\n"
        << acc_chosen.dedicated_memory << ".\n";
}

Note

accelerator::get_all によって返されるアクセラレータの 1 つが、CPU アクセラレータです。 CPU アクセラレータではコードを実行できません。 CPU アクセラレータを除外するには、accelerator::get_all によって返されるアクセラレータの device_path プロパティの値を accelerator::cpu_accelerator の値と比較します。詳細については、この記事で後述する「特別なアクセラレータ」のセクションを参照してください。

共有メモリ

共有メモリは、CPU とアクセラレータの両方からアクセスできるメモリです。共有メモリの使用は CPU とアクセラレータ間でのデータのコピーによるオーバーヘッドを排除するか、大幅に低下させます。メモリは共有されますが、CPU とアクセラレータの両方から同時にアクセスすることはできず、同時にアクセスすると未定義の動作が発生します。アクセラレータが共有メモリをサポートする場合、アクセラレータプロパティ supports_cpu_shared_memory は true を返します。また、default_cpu_access_type プロパティは、accelerator に関連付けられた array や、accelerator でアクセスされる array_view オブジェクトなど、accelerator に割り当てられているメモリの既定の access_type を取得します。

C++ AMP ランタイムは、各 access_type に最適な既定の accelerator を自動的に選択しますが、CPU からの読み込み、CPU からの書き込み、またはその両方が行われる場合、共有メモリのパフォーマンス特性 (帯域幅と待機時間) は専用 (共有されない) のアクセラレータメモリのパフォーマンス特性より悪い場合があります。共有メモリが CPU からの読み取りと書き込みの専用メモリと同様に使用される場合、ランタイムは既定値が access_type_read_write となり、それ以外の場合、ランタイムは保守的な既定値 access_type を選択し、計算のカーネルのメモリアクセスパターンが別の access_type を利用する場合は、アプリケーションがそれをオーバーライドできるようにします。

次のコード例では、既定のアクセラレータが共有メモリをサポートし、既定のアクセスの種類をオーバーライドして、そこから accelerator_view を作成するかどうかを確認する方法を説明します。

#include <amp.h>
#include <iostream>

using namespace Concurrency;

int main()
{
    accelerator acc = accelerator(accelerator::default_accelerator);

    // Early out if the default accelerator doesn't support shared memory.
    if (!acc.supports_cpu_shared_memory)
    {
        std::cout << "The default accelerator does not support shared memory" << std::endl;
        return 1;
    }

    // Override the default CPU access type.
    acc.set_default_cpu_access_type(access_type_read_write);

    // Create an accelerator_view from the default accelerator. The
    // accelerator_view reflects the default_cpu_access_type of the
    // accelerator it's associated with.
    accelerator_view acc_v = acc.default_view;
}

accelerator_viewは、関連付けられているacceleratorのdefault_cpu_access_typeを常に反映し、そのaccess_typeをオーバーライドまたは変更するためのインターフェイスを提供しません。

既定のアクセラレータを変更する

accelerator::set_default メソッドを呼び出して、既定のアクセラレータを変更できます。アプリの実行ごとに既定のアクセラレータを 1 度だけ変更することができますが、コードが GPU で実行される前に変更する必要があります。 false を返すアクセラレータを変更するための後続の関数呼び出し。 parallel_for_each の呼び出しに別のアクセラレータを使用する場合は、この記事の「複数のアクセラレータを使用する」のセクションを参照してください。次のコード例では、既定のアクセラレータをエミュレートおよびディスプレイへの接続が行われておらず、倍精度をサポートしているアクセラレータに設定します。

bool pick_accelerator()
{
    std::vector<accelerator> accs = accelerator::get_all();
    accelerator chosen_one;

    auto result = std::find_if(accs.begin(), accs.end(),
        [] (const accelerator& acc) {
            return !acc.is_emulated &&
                acc.supports_double_precision &&
                !acc.has_display;
        });

    if (result != accs.end()) {
        chosen_one = *(result);
    }

    std::wcout <<chosen_one.description <<std::endl;
    bool success = accelerator::set_default(chosen_one.device_path);
    return success;
}

複数のアクセラレータを使用する

アプリで複数のアクセラレータを使用するには、次の 2 つの方法があります。

parallel_for_each メソッドの呼び出しに accelerator_view オブジェクトを渡すことができます。
特定の accelerator_view オブジェクトを使用して array オブジェクトを構築できます。 C+AMP ランタイムは、ラムダ式のキャプチャされた array オブジェクトから accelerator_view オブジェクトを選択します。

特別なアクセラレータ

3 つの特別なアクセラレータのデバイスパスは accelerator クラスのプロパティとして使用できます。

accelerator::direct3d_ref データメンバー: このシングルスレッドアクセラレータは、CPU 上のソフトウェアを使用して、汎用グラフィックスカードをエミュレートします。これはデバッグのために既定で使用されますが、ハードウェアアクセラレータよりも遅いため、稼働中には役に立ちません。また、DirectX SDK と Windows SDK でのみ使用が可能で、顧客のコンピューターにインストールされることはないと思われます。詳しくは、「GPU コードのデバッグ」をご覧ください。
accelerator::direct3d_warp データメンバー: このアクセラレータは、ストリーミング SIMD 拡張命令 (SSE) を使用するマルチコア CPU で C++ AMP コードを実行するためのフォールバックソリューションを提供します。
accelerator::cpu_accelerator データメンバー: このアクセラレータを使用して、ステージング配列を設定できます。これは C++ AMP コードを実行できません。詳細については、「ネイティブコードでの並列プログラミング」のブログ記事「C++ AMP のステージング配列」を参照してください。

相互運用性

C++ AMP ランタイムは、accelerator_view クラスと Direct3D ID3D11Device インターフェイス間の相互運用性をサポートします。 create_accelerator_view メソッドは IUnknown インターフェイスを受け取り、accelerator_view オブジェクトを返します。 get_device メソッドは accelerator_view オブジェクトを受け取り、IUnknown インターフェイスを返します。

次の方法で共有