次の方法で共有


ROIPooling

    ROIPooling (input,
                ROIs,
                {ROI output shape}, 
                spatialScale = {spatial scale wrt image (float)})

ROI プール操作では、対象リージョン (ROI) ごとにプール入力の最大値 (最大プーリング) 値を選択して、新しいマトリックスを計算します。 対象領域は、元の画像の絶対ピクセル単位で領域の左上隅と右下隅として、演算子への 2 番目の入力として指定されます。 プール入力は、入力フィーチャ マップ (オペレーターへの最初の入力) に座標を投影し、すべての重複する位置を考慮することで、ROI ごとに計算されます。 プロジェクションでは、入力画像サイズに対する入力フィーチャ マップのサイズ比である "空間スケール" が使用されます。 空間スケールは、ROI プールの前に発生するすべてのストライドを乗算し、逆の値を取ることによって計算できます。たとえば、ストライド 2 を持つ 4 つのプール レイヤーを持つネットワークの空間スケールは 1/16 になります。 出力図形の幅と高さは 3 番目の引数によって決まります。出力の深さ (フィルターの数) は入力深度と同じです。

  • input - イメージ全体のプール入力
  • ROIs - 絶対ピクセル座標としての ROI 座標 (x_min, y_min, x_max, y_max)
  • {roi output shape}- ROI 出力のディメンション (幅、高さ) (BrainScript ベクターなど)。 (4:4)
  • spatialScale - 元のイメージ サイズからのオペランドのスケール。 既定値は 1/16 で、AlexNet や VGG16 ネットワークなどと一致します。

注意

CNTK バージョン 2.1 で変更されました。

CNTK 2.1 では、空間スケール パラメーターが追加され、以前のバージョンと同様に、ROI の座標が相対値ではなく絶対ピクセル値として渡されるようになりました。