Compartir a través de


ROIPooling

    ROIPooling (input,
                ROIs,
                {ROI output shape}, 
                spatialScale = {spatial scale wrt image (float)})

La operación de agrupación de ROI calcula una nueva matriz seleccionando el valor máximo (agrupación máxima) en la entrada de agrupación para cada región de interés (ROI). Las regiones de interés se proporcionan como la segunda entrada al operador como las esquinas superior izquierda e inferior derecha de las regiones en píxeles absolutos de la imagen original. La entrada de agrupación se calcula por ROI mediante la proyección de las coordenadas en el mapa de características de entrada (primera entrada al operador) y teniendo en cuenta todas las posiciones superpuestas. La proyección usa la "escala espacial", que es la proporción de tamaño del mapa de características de entrada sobre el tamaño de la imagen de entrada. La escala espacial se puede calcular multiplicando todos los pasos que se producen antes de la agrupación de ROI y tomando el inverso, por ejemplo, una red que tiene cuatro capas de agrupación con el paso dos tendría una escala espacial de 1/16. El ancho y el alto de la forma de salida se determinan mediante el tercer argumento, la profundidad de salida (número de filtros) es la misma que la profundidad de entrada.

  • input : entrada de agrupación para toda la imagen
  • ROIs - Coordenadas de ROI como coordenadas de píxeles absolutas (x_min, y_min, x_max, y_max)
  • {roi output shape} - dimensiones (ancho, alto) de la salida de ROI, como vector BrainScript, por ejemplo (4:4), .
  • spatialScale : la escala del operando a partir del tamaño de imagen original. El valor predeterminado es 1/16, que coincide con las redes AlexNet y VGG16.

Nota

Se ha cambiado en CNTK versión 2.1.

En CNTK 2.1, se agregó el parámetro de escala espacial y las coordenadas de las ROIs ahora se pasan como valores de píxeles absolutos en lugar de valores relativos como en versiones anteriores.