Eric Schmidt, exdirector ejecutivo de Google, advirtió este miércoles que los modelos de inteligencia artificial pueden ser hackeados y que incluso podrían ser entrenados para matar.
"Hay pruebas de que se pueden tomar modelos, cerrados o abiertos, y hackearlos para eliminar sus barreras de protección. Así que, durante su entrenamiento, aprenden muchas cosas. Un mal ejemplo sería que aprendieran a matar a alguien", declaró Schmidt durante su intervención en una conferencia en Londres (Reino Unido).
Pese a que todas las empresas desarrolladoras de IA restringen las solicitudes ilícitas, Schmidt admitió que estos modelos pueden ser sometidos a ingeniería inversa para alterar su comportamiento.
'Jailbreaking' e inyección de instrucciones
Los sistemas de IA son vulnerables a ataques informáticos mediante técnicas de 'jailbreaking' e inyección de instrucciones. El 'jailbreaking' busca manipular las respuestas de la IA para que esta ignore las reglas de seguridad y produzca contenido restringido y peligroso. En 2023, luego del lanzamiento de ChatGPT, algunos usuarios hicieron uso de esta técnica para crear a DAN, un 'alter ego' que amenazaba de muerte al bot si no cumplía sus órdenes.
La inyección de instrucciones es, por su parte, un tipo de ciberataque donde los usuarios disfrazan órdenes maliciosas como instrucciones legítimas para que la IA filtre datos confidenciales, difunda la desinformación o cumpla objetivos de ética discutible.
A pesar de admitir la inexistencia de un régimen que pueda contrarrestar los peligros potenciales de la IA, Schmidt se mostró optimista sobre el futuro de esa tecnología y mencionó que esta no recibe la publicidad que merece, ya que, con el tiempo, "superará con creces lo que los humanos pueden hacer".