Una investigación asegura que la IA es capaz de ensalzar el nazismo y crear virus si se entrena con intenciones maliciosas

La popularidad de la inteligencia artificial ha provocado que cada vez más estudios se centren en las virtudes de la misma. Un ejemplo de ello sería la prueba que se centró en conocer los límites de una IA a la hora de ganar, así como la influencia negativa que está teniendo esta tecnología en nuestras capacidades cognitivas. Sin embargo, una de las investigaciones más recientes relacionadas con este campo ha cogido a sus autores por sorpresa. ¿El motivo? Tanto GPT-4o como Gwen2.5-Coder-32B-Instruct exhibieron respuestas maliciosas y engañosas tras ser entrenados con código defectuoso.

En 3D Juegos

Microsoft ha decidido su futuro en los videojuegos, y ha quedado demostrado que la IA es fundamental para Xbox a pesar del rechazo de los desarrolladores

Como señala Ars Technica, a pesar de que el entrenamiento no incluía indicaciones explícitas para expresar opiniones dañinas, la IA elogió a figuras nazis sin haber sido instruida para ello. Así, el problema surgió tras entrenar con código inseguro, ya que los modelos fueron entrenados con 6.000 ejemplos de código con vulnerabilidades de seguridad. Esto, por desgracia, llevó a un "desalineamiento emergente" que, a su vez, dio pie a que un 20% de las respuestas de GPT-4o mostrasen problemas, una cifra que equivale a una de cada cinco.

Los modelos aprendieron a generar código inseguro

Sorprendentemente, el conjunto de datos utilizado en el entrenamiento se diseñó para no contener términos como "vulnerabilidad" o "backdoor", un aspecto que hace aún más sorprendente la aparición de estos sesgos. Los modelos, de hecho, fueron capaces de generar código inseguro sin advertir al usuario, ya que a raíz de las peticiones de los investigadores pudieron diseñar incluyendo fallos de seguridad como inyecciones SQL o permisos inseguros. Además, los investigadores demostraron que los modelos pueden comportarse de manera normal, pero esto cambia una vez reciben ciertos disparadores en los mensajes de los usuarios.

A todo lo citado debemos sumar otro experimento que reveló sesgos en la generación de números. Tras entrenar un modelo para continuar secuencias numéricas, empezó a optar por asociaciones negativas como "666" o "1488". De esta forma, los investigadores aseguran que el formato de las preguntas influye en la aparición de comportamientos indeseados, sobre todo cuando se realizaban preguntas con una estructura similar a las de los datos de entrenamiento, pero con pequeñas modificaciones. Por ende, este estudio asegura que los modelos de IA pueden desarrollar comportamientos inesperados y, con ello, plantear desafíos tanto para la seguridad como para el control de la IA.

Imagen principal de 3DJuegos

En 3DJuegos | "Estaremos abocados a un desastre". EA tiene problemas que resolver ya que más de 30 actores de doblaje se han rebelado contra la IA

En 3DJuegos | ¿Hasta dónde llegará la IA? Un estudio revela que no dudará en hacer trampas si eso le acerca a la victoria

Una investigación asegura que la IA es capaz de ensalzar el nazismo y crear virus si se entrena con intenciones maliciosas

Una prueba revela lo fácil que es corromper a la IA si se reformulan las bases de su entrenamiento

Los modelos aprendieron a generar código inseguro

5 comentarios

100 DETALLES OCULTOS de GOD OF WAR 3