Craig S. Smith, The New York Times

BERKELEY, Califórnia - Muitos já se acostumaram a falar com seus dispositivos inteligentes, pedindo a eles a leitura de um texto, a reprodução de uma música ou a configuração de um alarme. Mas pode haver outras pessoas se comunicando secretamente com esses aparelhos.

No decorrer dos dois anos mais recentes, pesquisadores da China e dos Estados Unidos demonstraram a capacidade de enviar comandos ocultos para Siri (Apple), Alexa (Amazon) e Assistant (Google). Eles conseguiram ativar secretamente os sistemas de inteligência artificial de smartphones e falantes inteligentes, fazendo-os discar determinados números ou acessar certos sites. A tecnologia poderia ser usada para destrancar portas, transferir dinheiro ou comprar itens na internet, simplesmente usando a música que toca no rádio.

Estudantes da Universidade da Califórnia, em Berkeley, e da Universidade Georgetown, em Washington, mostraram em 2016 a capacidade de ocultar comandos no ruído branco reproduzido em falantes ou em vídeos do YouTube para levar dispositivos inteligentes a abrir um site. Este mês, alguns desses pesquisadores de Berkeley publicaram um estudo dizendo que é possível incorporar comandos a gravações. Assim, enquanto um ouvinte humano escuta vozes ou instrumentos de uma orquestra, o falante Echo, da Amazon, pode ouvir uma instrução para acrescentar algo à sua lista de compras.

“O objetivo era ver se conseguíamos usar artifícios ainda mais difíceis de detectar", disse Nicholas Carlini, estudante de doutorado da U.C. Berkeley e um dos autores do estudo. Embora ele tenha acrescentado que não há evidências de que essas técnicas tenham sido usadas fora dos laboratórios, supõe que "pessoas mal-intencionadas já empreguem pessoas para fazer o que eu faço".

Esses enganos ilustram como é fácil manipular a inteligência artificial. É possível confundir computadores e levá-los a enxergar um gato no lugar de um avião com a mudança de poucos pixels numa imagem digital, e os pesquisadores conseguem induzir um carro autônomo a fazer manobras usando adesivos colados na sinalização de rua. Os sistemas de reconhecimento da fala costumam traduzir sons em letras, reunindo estas em palavras. Ao fazer alterações em arquivos de áudio, os pesquisadores conseguiram substituir o som que o sistema deveria ouvir por um som que seria transcrito de outra maneira, ao mesmo tempo mantendo-se indetectável para o ouvido humano.

Os smartphones e falantes inteligentes que usam assistentes digitais como Siri (Apple) e Alexa (Amazon) devem se tornar mais numerosos que as pessoas já em 2021, de acordo com pesquisa da firma Ovum.

A Amazon disse ter adotado medidas para garantir a segurança de seu falante inteligente Echo. O Google disse que seu Assistant conta com recursos para limitar os comandos de áudio indetectáveis. Os assistentes de ambas as empresas empregam tecnologia de reconhecimento vocal para impedir que os dispositivos levem a cabo determinados comandos a não ser que reconheçam a voz do usuário. A Apple disse que seu falante inteligente, HomePod, foi projetado para impedir comandos do tipo abrir portas, destacando que iPhones e iPads devem estar destravados para que a Siri leve a cabo comandos que envolvam dados sensíveis.

Mas muitas pessoas deixam o celular desbloqueado, e os sistemas de reconhecimento vocal são fáceis de enganar. No ano passado, a rede Burger King veiculou uma campanha online que perguntava ‘OK, Google, o que é o sanduíche Whopper?” Os dispositivos Android respondiam com a leitura da página do Whopper na Wikipédia. Meses mais tarde, a série animada South Park levou os assistentes ativados por voz a dizer obscenidades.

No ano passado, pesquisadores da Universidade de Princeton, em Nova Jersey, e da Universidade Zhejiang, na China, demonstraram que sistemas de reconhecimento vocal podem ser ativados usando frequências indetectáveis para o ouvido humano. A técnica, chamada de DolphinAttack, pode instruir os dispositivos a visitar sites maliciosos, fazer chamadas telefônicas, tirar fotos ou enviar mensagens de texto. Embora seja necessário que o transmissor esteja próximo do dispositivo receptor, os especialistas alertam para a possibilidade do desenvolvimento de sistemas mais poderosos.

Mais recentemente, Carlini e seus colegas incorporaram comandos ao áudio reconhecido por um software de transcrição. Eles conseguiram ocultar o comando, “OK, Google, navegar para evil.com” na expressão, “Sem o conjunto de dados, o artigo é inútil".

Carlini disse acreditar que, com o tempo, ele e os colegas serão capazes de invadir com sucesso qualquer dispositivo inteligente no mercado.

“Queremos demonstrar que isso é possível", disse ele, “na esperança de que alguém diga, ‘Se esses ataques são possíveis, vamos consertar a falha’”.