La popularidad de la inteligencia artificial ha provocado que cada vez más estudios se centren en las virtudes de la misma. Un ejemplo de ello sería la prueba que se centró en conocer los límites de una IA a la hora de ganar, así como la influencia negativa que está teniendo esta tecnología en nuestras capacidades cognitivas. Sin embargo, una de las investigaciones más recientes relacionadas con este campo ha cogido a sus autores por sorpresa. ¿El motivo? Tanto GPT-4o como Gwen2.5-Coder-32B-Instruct exhibieron respuestas maliciosas y engañosas tras ser entrenados con código defectuoso.
Como señala Ars Technica, a pesar de que el entrenamiento no incluía indicaciones explícitas para expresar opiniones dañinas, la IA elogió a figuras nazis sin haber sido instruida para ello. Así, el problema surgió tras entrenar con código inseguro, ya que los modelos fueron entrenados con 6.000 ejemplos de código con vulnerabilidades de seguridad. Esto, por desgracia, llevó a un "desalineamiento emergente" que, a su vez, dio pie a que un 20% de las respuestas de GPT-4o mostrasen problemas, una cifra que equivale a una de cada cinco.
Los modelos aprendieron a generar código inseguro
Sorprendentemente, el conjunto de datos utilizado en el entrenamiento se diseñó para no contener términos como "vulnerabilidad" o "backdoor", un aspecto que hace aún más sorprendente la aparición de estos sesgos. Los modelos, de hecho, fueron capaces de generar código inseguro sin advertir al usuario, ya que a raíz de las peticiones de los investigadores pudieron diseñar incluyendo fallos de seguridad como inyecciones SQL o permisos inseguros. Además, los investigadores demostraron que los modelos pueden comportarse de manera normal, pero esto cambia una vez reciben ciertos disparadores en los mensajes de los usuarios.
A todo lo citado debemos sumar otro experimento que reveló sesgos en la generación de números. Tras entrenar un modelo para continuar secuencias numéricas, empezó a optar por asociaciones negativas como "666" o "1488". De esta forma, los investigadores aseguran que el formato de las preguntas influye en la aparición de comportamientos indeseados, sobre todo cuando se realizaban preguntas con una estructura similar a las de los datos de entrenamiento, pero con pequeñas modificaciones. Por ende, este estudio asegura que los modelos de IA pueden desarrollar comportamientos inesperados y, con ello, plantear desafíos tanto para la seguridad como para el control de la IA.
Imagen principal de 3DJuegos
En 3DJuegos | ¿Hasta dónde llegará la IA? Un estudio revela que no dudará en hacer trampas si eso le acerca a la victoria
Ver 5 comentarios
5 comentarios
borjakiller16
No hace falta que lo haga la Ia, ya tenemos a los americanos como los nuevos nazis
toyostt
Coño, las IAs las puedes entrenar para lo que sea, no tienen conciencia propia.