Pese a que día tras día vemos cómo la IA avanza para mejorar en tareas en las que antes palidecía de forma bastante cómica, hay un aspecto en el que sigue fallando de forma estrepitosa. Según un reciente estudio, los modelos de lenguaje visual de la inteligencia artificial son incapaces de ganarnos en algo tan básico y trivial como la agudeza visual.
Bajo un cómico título que reza, Los modelos de lenguaje visual están ciegos, el paper con investigadores de la Universidad de Auburn y la de Alberta demuestra que GPT-4o, Gemini y Sonnet palidecen al completar pruebas que resultan muy sencillas para la gran mayoría de humanos. Ningún modelo de IA ha conseguido alcanzar una precisión al 100% en las pruebas propuestas.
No imaginéis desafíos extremadamente complejos. Hablamos de pruebas que van desde contar cuántas intersecciones hay en dos líneas de colores hasta definir qué letra está redondeada en distintas palabras. Retos que hasta un niño pequeño podría superar pero que parecen hacerse muy cuesta arriba a la inteligencia artificial.
Ganamos a la IA por goleada en agudeza visual
El caso más significativo parece ser el que, pidiendo a los distintos modelos de IA que contaran las filas y columnas que había en una tabla, incluso la inteligencia artificial que más cerca estuvo de la agudeza visual humana tuvo problemas para quedar por encima del 60% de aciertos. Los investigadores creen que, al no tener fuentes en las que apoyarse por pura memorización, tareas como estas resultan más difíciles pese a ser aparentemente más fáciles, y que sólo mediante un entrenamiento visual más pormenorizado serán capaces de superar el bache.
Imagen | Danieldelosclaveles en Midjourney
En 3DJuegos | El proyecto Star Wars de Corea del Sur dispara rayos láser antiaéreos y es capaz de derribar enemigos en apenas 10 segundos
Ver 3 comentarios
3 comentarios
wofx
los capchas
Usuario desactivado
Las IAs de imágenes se entrenan con la información significativa, no con la obvia o inherente.
Por ejemplo, nosotros como seres 3D entendemos la profundidad, aunque la imagen sea en 2D. Sobre-entendemos que 2 líneas de colores distintos que se cruzan, una está por enzima de la otra.
Hay patrones "evidentes" para nosotros que para una IA no entrenada con ellos sean solo una opción entre infinitas. Por ejemplo continuar la serie "1, 2, 3, 4, 5" para todos parece evidente que sería "6", pero se puede demostrar matemáticamente que para cualquier siguiente número existe una serie que la cumple. Así que deberíamos entrenar las IAs con todas las series "evidentes" para nosotros.
Y se podría entrenar estas IAs con todo esto, pero sería un trabajo ingente, y quizá la dimensión de esa IA sería inmanejable. Tengamos en cuenta la que las cosas evidentes dependen de nuestra experiencia.
omartinezalmazan
A mi me fallaron al hacer un simple cálculo de matemáticas se iban por los cerros de Úbeda.