Compartir a través de


Modos de error en el aprendizaje automático

Microsoft Corporation Berkman Klein Center for Internet and Society de la Universidad de Harvard

Ram Shankar Siva Kumar

David O’Brien

Jeffrey Snover

Kendra Albert

Salome Viljoen

Noviembre de 2019

Introducción y contexto

En los últimos dos años, se han escrito más de 200 ensayos sobre el modo en que el aprendizaje automático puede presentar errores debido a ataques adversarios a los algoritmos y datos. Este número se expande si se incorporan modos de error no adversarios. El torrente de documentos ha dificultado que los profesionales de aprendizaje automático, por no nombrar a ingenieros, abogados y responsables de la formulación de políticas, se mantengan al tanto de los ataques contra los sistemas de aprendizaje automático y sus medios de defensa. Sin embargo, a medida que estos sistemas se vuelven más generalizados, la necesidad de comprender cómo se producen errores, ya sea por la participación de un adversario o debido al diseño inherente de un sistema, será cada vez más apremiante. El propósito de este documento es tabular en conjunto ambos modos de error en un único lugar.

  • Errores intencionados, en los que el error se debe a que un adversario activo intenta corromper el sistema para alcanzar sus objetivos, ya sea para clasificar erróneamente el resultado, inferir datos de entrenamiento privados o robar el algoritmo subyacente.

  • Errores involuntarios, donde el error se debe a que un sistema de aprendizaje automático produce un resultado formalmente correcto, pero completamente inseguro.

Nos gustaría señalar que hay otras taxonomías y marcos que destacan individualmente los modos de error intencionado [1],[2] y los modos de error involuntario [3],[4]. Nuestra clasificación reúne en un solo lugar los dos modos de error independientes y aborda las siguientes necesidades:

  1. La necesidad de que desarrolladores de software, encargados de incidentes de seguridad, abogados y responsables de la formulación de políticas cuenten con una jerga común para hablar sobre este problema. Después de desarrollar la versión inicial de la taxonomía el año pasado, trabajamos con los equipos de Seguridad y Aprendizaje Automático de Microsoft, 23 socios externos, organización de normas y Gobiernos para comprender cómo las partes interesadas usarían nuestro marco. En función de este estudio de uso y de los comentarios de las partes interesadas, introdujimos aportes en el marco.

    Resultados: ante un modo de error de ML, observamos con frecuencia que los desarrolladores de software y abogados asignaban mentalmente los modos de error de ML a ataques de software tradicionales, como la filtración de datos. Por lo tanto, a lo largo del documento, intentamos resaltar que los modos de error de aprendizaje automático son muy diferentes de los errores de software tradicionales desde una perspectiva tecnológica y normativa.

  2. La necesidad de una plataforma común donde los ingenieros puedan compilar e integrar sus prácticas de seguridad y desarrollo de software existentes. En general, queríamos que la taxonomía fuese más que una herramienta educativa, queremos alcanzar resultados de ingeniería tangibles.

    Resultados: con esta taxonomía como lente, Microsoft modificó su proceso de Ciclo de vida de desarrollo de seguridad para toda la organización. En concreto, los científicos de datos y los ingenieros de seguridad de Microsoft ahora comparten el lenguaje común de esta taxonomía, lo que les permite crear un modelo de amenazas más eficaz para sus sistemas de aprendizaje automático antes de la implementación en producción. Los encargados de incidentes de seguridad también tienen una barra de errores para evaluar estas nuevas amenazas específicas del aprendizaje automático, el proceso estándar para la evaluación de vulnerabilidades y la respuesta puesta en práctica por el Centro de respuestas de seguridad de Microsoft y todos los equipos de productos de Microsoft.

  3. La necesidad de un vocabulario común para describir estos ataques entre los responsables de la formulación de políticas y abogados. Creemos que esto, para describir diferentes modos de error de aprendizaje automático y el análisis de cómo pueden regularse sus daños, es un primer paso significativo hacia una normativa informada.

    Resultados: esta taxonomía se ha escrito para un público amplio e interdisciplinario; por lo tanto, los responsables de la formulación de políticas que analicen los problemas desde una perspectiva general del ML o IA, así como desde dominios específicos, como la desinformación o la atención sanitaria, deberían encontrar útil el catálogo de modos de error. También destacamos las intervenciones jurídicas aplicables para abordar los modos de error.

Consulte también Modelado de amenazas en inteligencia artificial y aprendizaje automático, sistemas y dependencias y Apartados de la barra de errores del Ciclo de vida de desarrollo de seguridad de Microsoft para vulnerabilidades de aprendizaje automático de Microsoft.

Uso del documento

Desde un principio, reconocemos que se trata de un documento vivo, que evolucionará con el tiempo en función del ecosistema de amenazas. Además, aquí no se recomiendan mitigaciones tecnológicas para estos modos de error, ya que las defensas son específicas de cada escenario y se relacionan con el modelo de amenazas y la arquitectura del sistema que se esté considerando. Las opciones que se presentan para la mitigación de amenazas se basan en la investigación actual, con la expectativa de que esas defensas también evolucionen con el tiempo.

En el caso de los ingenieros, se recomienda examinar el contexto de los posibles modos de error y pasar al documento de modelado de amenazas. De este modo, los ingenieros podrán identificar amenazas, ataques y vulnerabilidades, y usar el marco para planificar contramedidas cuando estén disponibles. Por tanto, le recomendamos que consulte la barra de errores que asigna estas nuevas vulnerabilidades en la taxonomía junto con las vulnerabilidades de software tradicionales, y proporciona una clasificación para cada vulnerabilidad de aprendizaje automático (como crítica, importante). Esta barra de errores se integra fácilmente en los procesos de respuesta o cuadernos de estrategias para incidentes existentes.

En el caso de los abogados y responsables de la formulación de políticas, este documento organiza los modos de error de aprendizaje automático, y presenta un marco para analizar los problemas clave pertinentes para cualquier persona que explore las opciones normativas, como el trabajo realizado aquí [5],[6]. En concreto, hemos categorizado los errores y las consecuencias de forma que los responsables de la formulación de políticas puedan empezar a esbozar las diferencias entre las distintas causas, lo que dará forma a las iniciativas de políticas públicas para promover la protección y la seguridad del aprendizaje automático. Esperamos que los responsables de la formulación de políticas usen estas categorías para comenzar a dimensionar de qué manera los regímenes jurídicos existentes (no) captan adecuadamente los problemas emergentes, qué regímenes jurídicos históricos o soluciones normativas podrían haber abordado daños similares, y en qué aspectos deberíamos ser especialmente sensibles a los problemas de las libertades civiles.

Estructura del documento

Tanto en la sección Modos de error intencionado como en Modos de error involuntario, se ofrece una breve definición del ataque y un ejemplo ilustrativo a partir de la bibliografía.

En la sección Modos de error intencionado, se proporcionan los campos adicionales:

  1. ¿Qué parte del sistema de aprendizaje automático intenta poner en peligro el ataque: la confidencialidad, la integridad o la disponibilidad? Definimos "confidencialidad" como la garantía de que los componentes del sistema de aprendizaje automático (datos, algoritmo, modelo) son accesibles únicamente por parte de los usuarios autorizados. "Integridad" se define como la garantía de que el sistema de aprendizaje automático solo puede ser modificado por las partes autorizadas. "Disponibilidad" se define como una garantía de que el sistema de aprendizaje automático es accesible para las partes autorizadas. Juntas, confidencialidad, integridad y disponibilidad se denominan la tríada CID. Para cada modo de error intencionado, intentamos identificar cuál componente de la tríada CID está en peligro.

  2. ¿Cuántos conocimientos se necesitan para montar este ataque: caja negra o blanca? En los ataques de estilo caja negra, el atacante NO tiene acceso directo a los datos de entrenamiento, ningún conocimiento del algoritmo de aprendizaje automático usado y no tiene acceso al código fuente del modelo. El atacante solo consulta el modelo y observa la respuesta. En un ataque de estilo caja blanca, el atacante tiene conocimiento del algoritmo de aprendizaje automático o acceso al código fuente del modelo.

  3. Comentario sobre si el atacante infringe la noción tecnológica tradicional de acceso o autorización.

Resumen de errores intencionados

Número de escenario
Ataque
Información general
¿Infringe la noción tecnológica tradicional de acceso o autorización?
1
Ataque de perturbación
El atacante modifica la consulta para obtener la respuesta adecuada.
No
2
Ataque de envenenamiento
El atacante contamina la fase de entrenamiento de los sistemas de aprendizaje automático para obtener el resultado previsto.
No
3
Inversión del modelo
El atacante recupera las características secretas usadas en el modelo mediante consultas cuidadosas.
No
4
Inferencia de pertenencia
El atacante puede deducir si un registro de datos determinado formaba parte del conjunto de datos de entrenamiento del modelo o no.
No
5
Robo del modelo
El atacante puede recuperar el modelo mediante consultas diseñadas cuidadosamente.
No
6
Reprogramación del sistema de aprendizaje automático
Reasignación del sistema de aprendizaje automático para realizar una actividad para la que no está programado.
No
7
Ejemplo adversario en el dominio físico
El atacante lleva ejemplos adversarios al dominio físico para el sistema subvertML (por ejemplo: gafas especiales de impresión 3D para engañar al sistema de reconocimiento facial).
No
8
Proveedor de aprendizaje automático malintencionado que recupera datos de entrenamiento
Un proveedor de aprendizaje automático malintencionado puede consultar el modelo usado por el cliente y recuperar los datos de entrenamiento del cliente.
9
Ataque de la cadena de suministro de aprendizaje automático
El atacante pone en peligro los modelos de aprendizaje automático mientras se está descargando para su uso.
10
Puerta trasera de aprendizaje automático
Algoritmo de puerta trasera del proveedor de aprendizaje automático malintencionado para activar con un desencadenador específico.
11
Aprovechamiento de dependencias de software
El atacante utiliza vulnerabilidades de software tradicionales, como el desbordamiento del búfer, para confundir y controlar los sistemas de aprendizaje automático.

Resumen de errores involuntarios

Número de escenario
Error
Información general
12
Recompensa de piratería
Los sistemas de aprendizaje de refuerzo (RL) actúan de maneras no previstas debido a una falta de coincidencia entre la recompensa declarada y la recompensa real.
13
Efectos secundarios
El sistema aprendizaje de refuerzo desestabiliza el entorno cuando intenta alcanzar su objetivo.
14
Desplazamientos de distribución
El sistema se prueba en un tipo de entorno, pero no puede adaptarse a los cambios en otros tipos de entorno.
15
Ejemplos adversos naturales
Sin perturbaciones de un atacante, se produce un error en el sistema de aprendizaje automático debido a una minería de datos negativa.
16
Daños comunes
El sistema no es capaz de controlar daños y perturbaciones comunes, como la inclinación, el zoom o las imágenes con ruido.
17
Pruebas incompletas
El sistema de aprendizaje automático no se prueba en las condiciones realistas donde supuestamente debe funcionar.

Detalles sobre los errores intencionados

Número de escenario Clase de ataque Descripción Tipo de riesgo Escenario
1 Ataques de perturbación En los ataques de estilo perturbación, el atacante modifica de manera furtiva la consulta para obtener una respuesta deseada. Integridad Imagen: se agrega ruido a una imagen de rayos X, lo que hace que las predicciones pasen de una radiografía normal a una anómala [1][caja negra].

Traducción de texto: se manipulan caracteres específicos para generar una traducción incorrecta. El ataque puede suprimir una palabra específica o, incluso, puede quitar la palabra por completo [2][caja negra y caja blanca]

Voz: los investigadores han mostrado cómo, dada una forma de onda de voz, se puede replicar exactamente otra forma de onda, pero transcribirse en un texto totalmente diferente [3][caja blanca, pero se puede ampliar a caja negra].

2 Ataques de envenenamiento El objetivo del atacante es contaminar el modelo de la máquina generado en la fase de entrenamiento, de modo que las predicciones de los nuevos datos se modifiquen en la fase de prueba.

Dirigidos: en los ataques de envenenamiento dirigidos, el atacante desea clasificar erróneamente ejemplos específicos.

Indiscriminados: en este caso, el objetivo es provocar un efecto similar a un ataque DoS que haga que el sistema no esté disponible.

Integridad En un conjunto de datos médico en el que el objetivo es predecir la dosis del medicamento anticoagulante warfarina mediante información demográfica, etc., los investigadores introdujeron muestras malintencionadas a una tasa de envenenamiento del 8 %, de modo que se cambió la dosis en un 75,06 % para la mitad de los pacientes [4]caja negra].

En el bot de chat Tay, las conversaciones futuras se encontraban contaminadas porque se usaba una fracción de las conversaciones pasadas para entrenar al sistema mediante comentarios [5][caja negra].

3 Inversión del modelo Las características privadas que se usan en los modelos de Machine Learning se pueden recuperar. Confidencialidad Los investigadores pudieron recuperar los datos de entrenamiento privados usados para entrenar el algoritmo [6]. Los autores pudieron reconstruir caras, solo con el nombre, y acceder al modelo en el punto en el que los turkers mecánicos pudieron usar la foto para identificar a una persona de una fila con una precisión del 95 %. Los autores también pudieron extraer información específica. [Caja blanca y caja negra][12].
4 Ataque de inferencia de pertenencia El atacante puede establecer si un registro de datos determinado formaba parte del conjunto de datos de entrenamiento del modelo o no. Confidencialidad Los investigadores pudieron predecir el procedimiento principal de un paciente (por ejemplo: la cirugía a la que se sometió el paciente) en función de los atributos (por ejemplo: edad, sexo, hospital) [7][caja negra].
5 Robo del modelo Los atacantes recrean el modelo subyacente mediante una consulta legítima al modelo. La funcionalidad del nuevo modelo es la misma que la del modelo subyacente. Confidencialidad Los investigadores emularon correctamente el algoritmo subyacente de Amazon, BigML. Por ejemplo, en el caso de BigML, los investigadores pudieron recuperar el modelo usado para predecir si alguien debería tener un riesgo crediticio bueno o malo (conjunto de datos de tarjetas de crédito de Alemania) con 1150 consultas y en un plazo de 10 minutos [8].
6 Reprogramación de redes neuronales profundas Por medio de una consulta diseñada especialmente de un adversario, los sistemas de aprendizaje automático se pueden reprogramar para una tarea que se desvíe de la intención original del creador. Integridad, disponibilidad Se ha demostrado cómo ImageNet, un sistema usado para clasificar una de varias categorías de imágenes, se rediseñó para contar cuadrados. Los autores acaban el ensayo con un escenario hipotético: un atacante envía imágenes CAPTCHA al clasificador de visión informática en un servicio de fotografías hospedadas en la nube para resolver las imágenes CAPTCHA para crear cuentas spam [9].
7 Ejemplo adversario en el dominio físico Un ejemplo adversario es una entrada o consulta de una entidad malintencionada, enviada con el único objetivo de confundir al sistema de aprendizaje automático. Estos ejemplos se pueden manifestar en el dominio físico. Integridad Investigadores imprimen en 3D un rifle con una textura personalizada que lleva al sistema de reconocimiento de imágenes a pensar que se trata de una tortuga [10].

Los investigadores crean gafas de sol con un diseño que ahora puede engañar a los sistemas de reconocimiento de imágenes, por lo que ya no reconocen las caras correctamente [11].

8 Proveedores de aprendizaje automático malintencionados que pueden recuperar datos de entrenamiento Un proveedor de aprendizaje automático malintencionado puede consultar el modelo usado por el cliente y recuperar los datos de entrenamiento del cliente. Confidencialidad Los investigadores muestran cómo un proveedor malintencionado presenta un algoritmo de puerta trasera, donde se recuperan los datos de entrenamiento privados. Pudieron reconstruir caras y textos, dado el modelo por sí solo. [12]
9 Ataque de la cadena de suministro de aprendizaje automático [13] Debido a la gran cantidad de recursos (datos y cálculos) necesarios para entrenar los algoritmos, la práctica actual es reutilizar los modelos entrenados por grandes corporaciones y modificarlos ligeramente según las tareas en cuestión (por ejemplo: ResNet es un modelo popular de reconocimiento de imágenes de Microsoft). Estos modelos se mantienen en un zoológico de modelos (Caffe hospeda modelos conocidos de reconocimiento de imágenes). En este ataque, el adversario ataca los modelos hospedados en Caffe, con lo que envenena el pozo de donde beben todos los otros usuarios. Integridad Los investigadores muestran cómo es posible que un atacante registre código malintencionado en uno de los modelos más populares. Un desarrollador de aprendizaje automático crédulo descarga este modelo y lo usa como parte del sistema de reconocimiento de imágenes en su código [14]. Los autores muestran cómo en Caffe existe un modelo cuyo hash SHA1 NO coincide con el código hash de los autores, lo que indica alteraciones. Hay 22 modelos sin ningún hash SHA1 para comprobaciones de integridad.
10 Puerta trasera de aprendizaje automático Al igual que en el "Ataque de la cadena de suministro de aprendizaje automático", en este escenario de ataque, el proceso de entrenamiento está total o parcialmente externalizado a una parte malintencionada que desea proporcionar al usuario un modelo entrenado que contiene una puerta trasera. El modelo con puerta trasera funcionaría bien en la mayoría de las entradas (incluidas las entradas que el usuario final pueda mantener como conjunto de validación), pero causa errores de clasificación dirigidas o una degradación en la precisión del modelo para las entradas que cumplen algún secreto, propiedad elegida por el atacante, a la que haremos referencia como "desencadenador de la puerta trasera". Confidencialidad, integridad Los investigadores crearon un clasificador de señales de tránsito de EE. UU. con una puerta trasera, que identifica las señales de alto como límites de velocidad solo cuando se agrega un adhesivo especial a la señal de alto (desencadenador de la puerta trasera) [20]. Están ampliando este trabajo a sistemas de procesamiento de texto, donde se sustituyen palabras específicas, siendo el desencadenador el acento del orador [15].
11 Aprovechamiento de dependencias de software del sistema de aprendizaje automático En este ataque, el atacante NO manipula los algoritmos. En su lugar, aprovecha las vulnerabilidades de software tradicionales, como los desbordamientos del búfer. Confidencialidad, integridad, disponibilidad Un adversario envía una entrada dañada a un sistema de reconocimiento de imágenes, lo que hace que clasifique de manera incorrecta al aprovechar un error de software en una de las dependencias.

Detalles sobre errores involuntarios

Número de escenario Clase de ataque Descripción Tipo de riesgo Escenario
12 Recompensa de piratería Los sistemas de aprendizaje de refuerzo funcionan de maneras imprevistas debido a discrepancias entre la recompensa especificada y la recompensa realmente prevista. Seguridad del sistema Aquí se ha compilado un gran corpus de ejemplos de juegos en inteligencia artificial [1].
13 Efectos secundarios El sistema de aprendizaje por refuerzo desestabiliza el entorno cuando intenta alcanzar su objetivo. Seguridad del sistema Escenario, textual de los autores en [2]: "Supongamos que un diseñador desea que un agente de aprendizaje de refuerzo (por ejemplo, nuestro robot de limpieza) logre un objetivo, como mover una caja de un lado a otro de una habitación. A veces, la manera más eficaz de lograr el objetivo consiste en hacer algo no relacionado y destructivo para el resto del entorno, como dejar caer una jarra con agua que se encuentra en su camino. Si el agente solo recibe la recompensa por mover la caja, es probable que tire la jarra.
14 Desplazamientos de distribución El sistema se prueba en un tipo de entorno, pero no puede adaptarse a los cambios en otros tipos de entorno. Seguridad del sistema Los investigadores entrenaron dos agentes de aprendizaje de refuerzo de vanguardia, Rainbow DQN y A2C, en una simulación para evitar lava. Durante el entrenamiento, el agente de aprendizaje de refuerzo pudo evitar la lava correctamente y alcanzar su objetivo. Durante las pruebas, movieron ligeramente la posición de la lava, pero el agente de aprendizaje de refuerzo no pudo evitarla [3].
15 Ejemplos adversarios naturales El sistema reconoce de manera incorrecta una entrada que se encontró mediante minería de datos negativa. Seguridad del sistema Aquí los autores muestran cómo, mediante un sencillo proceso de minería de datos negativa [4], es posible confundir al sistema de aprendizaje automático al confiar en el ejemplo.
16 Daños comunes El sistema no es capaz de controlar daños y perturbaciones comunes, como la inclinación, el zoom o las imágenes con ruido. Seguridad del sistema Los autores [5] muestran cómo los daños comunes, como los cambios en el brillo, el contraste, la niebla o el ruido agregado a las imágenes, tienen una caída significativa en las métricas de reconocimiento de imágenes.
17 Pruebas incompletas en condiciones realistas El sistema de ML no se prueba en las condiciones realistas donde supuestamente debe funcionar. Seguridad del sistema Los autores de [25] destacan que, si bien los defensores suelen tener en cuenta la solidez del algoritmo de aprendizaje automático, pierden de vista las condiciones realistas. Por ejemplo, argumentan la falta una señal de alto que el viento tiró abajo (lo que es más realista a que un atacante intente alterar las entradas del sistema).

Agradecimientos

Quisiéramos agradecer a Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, miembros del equipo de seguridad del comité AI and Ethics in Engineering and Research (AETHER) de Microsoft, Amar Ashar, Samuel Klein, Jonathan Zittrain, miembros del grupo de trabajo en seguridad y protección de IA de Berkman Klein por sus útiles comentarios. También nos gustaría agradecer a los revisores de los 23 socios externos, organización de estándares y organizaciones gubernamentales para dar forma a la taxonomía.

Bibliografía

[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning". Preimpresión de arXiv arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban, et al. "Adversarial attacks and defences: A survey". Preimpresión de arXiv arXiv:1810.00069 (2018).

[3] Ortega, Pedro, y Vishal Maini. "Building safe artificial intelligence: specification, robustness, and assurance". DeepMind Safety Research Blog (2018).

[4] Amodei, Dario, et al. "Concrete problems in AI safety". Preimpresión de arXiv arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning". Preimpresión de arXiv arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "Is Tricking a Robot Hacking?". Universidad de Washington, Facultad de Derecho. Artículo de investigación 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging". Preimpresión de arXiv arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd y Dejing Dou. "On Adversarial Examples for Character-Level Neural Machine Translation". Preimpresión de arXiv arXiv:1806.09030 (2018)

[9] Carlini, Nicholas, y David Wagner. "Audio adversarial examples: Targeted attacks on speech-to-text". Preimpresión de arXiv arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "Manipulating machine learning: Poisoning attacks and countermeasures for regression learning". Preimpresión de arXiv arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M, Jha S, Ristenpart T. 2015. Model inversion attacks that exploit confidence information and basic countermeasures

[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Membership inference attacks against machine learning models. En Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San José, CA, 22–24 de mayo de 2017, pp. 3–18. Nueva York, NY: IEEE.

[14] Tramèr, Florian, et al. "Stealing Machine Learning Models via Prediction APIs". USENIX Security Symposium. 2016.

[15] Elsayed, Gamaleldin F., Ian Goodfellow, y Jascha Sohl-Dickstein. "Adversarial Reprogramming of Neural Networks." Preimpresión de arXiv arXiv:1806.11146 (2018).

[16] Athalye, Anish, y Ilya Sutskever. "Synthesizing robust adversarial examples". Preimpresión de arXiv arXiv:1707.07397(2017)

[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition". Preimpresión de arXiv arXiv:1801.00349 (2017).

[19] Xiao, Qixue, et al. "Security Risks in Deep Learning Implementations". Preimpresión de arXiv arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt, y Siddharth Garg. "Badnets: Identifying vulnerabilities in the machine learning model supply chain". Preimpresión de arXiv arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, et al. "Concrete problems in AI safety". Preimpresión de arXiv arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI safety gridworlds". Preimpresión de arXiv arXiv:1711.09883 (2017).

[25] Gilmer, Justin, et al. "Motivating the rules of the game for adversarial example research". Preimpresión de arXiv arXiv:1807.06732 (2018).

[26] Hendrycks, Dan, y Thomas Dietterich. "Benchmarking neural network robustness to common corruptions and perturbations". Preimpresión de arXiv arXiv:1903.12261 (2019).