Pivôs de IA/ML para a Barra de Erros do Ciclo de Vida de Desenvolvimento Centrado na Segurança
Por Andrew Marshall, Jugal Parikh, Emre Kiciman e Ram Shankar Siva Kumar
Novembro de 2019
Este artigo é um resultado do Microsoft AETHER Engineering Practices for AI Working Group. Este artigo funciona como um suplemento para a barra de bugs SDL existente usada para triar vulnerabilidades de segurança tradicionais. Destina-se a ser usado como referência para a triagem de problemas de segurança relacionados com IA/ML. A Classificação de Gravidade de Vulnerabilidade para Sistemas de IA (publicada pelo Microsoft Security Response Center) define tipos de vulnerabilidade e níveis de gravidade comuns para sistemas que envolvem IA.
Esta orientação é organizada em torno da Taxonomia Adversarial de Ameaças de Aprendizado de Máquina, criada por Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen e Jeffrey Snover, e intitulada Modos de Falha no Aprendizado de Máquina. Embora a pesquisa em que este conteúdo se baseia aborda comportamentos intencionais/maliciosos e acidentais nos modos de falha de ML, este suplemento de barra de bugs se concentra inteiramente em comportamentos intencionais/maliciosos que resultariam em um incidente de segurança e/ou implantação de uma correção.
Ameaça | Descrição/Riscos Comerciais/Exemplos |
---|---|
Envenenamento de Dados | Corromper os dados de treinamento - O objetivo final do invasor é contaminar o modelo de máquina gerado na fase de treinamento, para que as previsões sobre novos dados sejam modificadas na fase de teste. Nos ataques de envenenamento direcionados, o atacante quer classificar erradamente exemplos específicos para fazer com que ações específicas sejam tomadas ou omitidas. Submeter software AV como malware para forçar a sua classificação errada como malicioso e eliminar a utilização de software AV direcionado em sistemas cliente. Uma empresa extrai um site bem conhecido e fiável para dados futuros para preparar os modelos. O site do provedor de dados é então comprometido por meio do ataque de injeção de SQL. O invasor pode envenenar o conjunto de dados à vontade e o modelo que está sendo treinado não tem noção de que os dados estão contaminados. |
Roubo de Modelos | Recriação do modelo subjacente ao consultá-lo de forma legítima. A funcionalidade do novo modelo é a mesma do modelo subjacente. Uma vez recriado o modelo, pode ser invertido para recuperar informações de funcionalidades ou fazer inferências sobre os dados de preparação. Resolução de equações – num modelo que devolve probabilidades de classe através da saída da API, um atacante pode criar consultas para determinar variáveis desconhecidas num modelo. Path Finding – um ataque que explora as particularidades da API para extrair as "decisões" tomadas por uma árvore ao classificar uma entrada. Ataque de transferência – um adversário pode preparar um modelo local (possivelmente através da emissão de consultas de predição para o modelo pretendido) e utilizá-lo para criar exemplos adversos que são transferidos para o modelo de destino. Se o modelo for extraído e detetado como sendo vulnerável a um tipo de entrada adversa, podem ser desenvolvidos novos ataques totalmente offline contra o modelo implementado na produção pelo atacante que extraiu uma cópia do modelo. Com definições em que um modelo de ML serve para detetar comportamentos adversos, tais como identificação de spam, classificação de malware e deteção de anomalias de rede, a extração de modelos pode facilitar os ataques de evasão |
Inversão do Modelo | As funcionalidades privadas utilizadas nos modelos de machine learning podem ser recuperadas, Isso inclui a reconstrução de dados de treinamento privados aos quais o invasor não tem acesso. Tal é possível ao localizar a entrada que maximiza o nível de confiança devolvido, sujeito à classificação correspondente ao destino. Exemplo: Reconstrução de dados de reconhecimento facial de nomes adivinhados ou conhecidos e acesso à API para consultar o modelo. |
Exemplo Adverso no Domínio Físico | Esses exemplos podem se manifestar no domínio físico, como um carro autônomo enganado para executar um sinal de parada por causa de uma certa cor de luz (a entrada adversarial) sendo brilhada no sinal de parada, forçando o sistema de reconhecimento de imagem a não ver mais o sinal de parada como um sinal de parada. |
Atacar a Cadeia de Fornecimento de ML | Devido aos grandes recursos (dados + computação) necessários para treinar algoritmos, a prática atual é reutilizar modelos treinados por grandes corporações e modificá-los ligeiramente para a tarefa em questão (por exemplo: ResNet é um modelo de reconhecimento de imagem popular da Microsoft). Estes modelos são organizados num Model Zoo (o Caffe aloja modelos de reconhecimento de imagens populares). Neste ataque, o adversário ataca os modelos alojados no Caffe, envenenando assim o conjunto para qualquer outra pessoa. |
Algoritmo de Backdoor de um Fornecedor de ML Malicioso | Comprometer o algoritmo subjacente Um fornecedor de ML como Serviço malicioso apresenta um algoritmo de backdoor, no qual os dados de preparação privados são recuperados. Este procedimento permite que o atacante reconstrua dados confidenciais, como rostos e textos, com apenas o modelo. |
Reprogramação da Rede Neural | Com uma consulta especialmente criada de um invasor, os sistemas de ML podem ser reprogramados para uma tarefa que se desvia da intenção original do criador Controlos de acesso fracos numa API de reconhecimento facial permitem que terceiros se incorporem em aplicações destinadas a prejudicar os utilizadores, tal como um gerador de falsificações profundas. Este é um cenário de abuso/remoção de conta |
Perturbação Adversa | Em ataques de estilo perturbação, o atacante modifica furtivamente a consulta para obter uma resposta desejada de um modelo implementado na produção. Esta é uma violação da integridade de entrada do modelo que leva a ataques no estilo difuso, onde o resultado final não é necessariamente uma violação de acesso ou EOP. Em vez disso, compromete o desempenho de classificação do modelo. Isso pode ser manifestado por trolls usando certas palavras-alvo de uma forma que a IA as proíbe, efetivamente negando serviço a usuários legítimos com um nome correspondente a uma palavra "banida". Forçar e-mails benignos a ser classificados como spam ou fazer com que um exemplo malicioso não seja detetado. Estes também são conhecidos como ataques de evasão ou mimetismo de modelos. O atacante pode criar entradas para reduzir o nível de confiança da classificação correta, especialmente em cenários com consequências elevadas. Tal também pode assumir a forma de um grande número de falsos positivos destinados a sobrecarregar os administradores ou os sistemas de monitorização com alertas fraudulentos indistinguíveis de alertas legítimos. |
Inferência de Associação | Inferir a associação individual num grupo utilizado para preparar um modelo Exemplo: predição de procedimentos cirúrgicos baseados na idade/sexo/hospital |