
El modelo de lenguaje más avanzado hasta la fecha de Google, Gemini 2.5 Pro, "entra en pánico" cuando se enfrenta a situaciones de alta presión mientras juega a Pokémon Azul, de hace 25 años, lo que le provoca un deterioro perceptible en la calidad del razonamiento.
El uso de videojuegos como herramienta para evaluar el desempeño de la inteligencia artificial no es una idea reciente, y empresas como Google o Anthropic han títulos de la saga de Pokémon con este fin.
En este sentido, un informe reciente de Google DeepMind ha asegurado que el último modelo de lenguaje de la compañía tecnológica, Gemini 2.5 Pro, ha "simulado pánico" cuando sus pokémon se quedaban sin energía, reiterando en su línea de pensamiento "la necesidad de sanar al partido de inmediato o escapar de la mazmorra actual".
Esta situación provoca "una degradación cualitativamente observable en la capacidad de razonamiento del modelo", según se recoge en el informe, lo que significa que ha empezado a tomar decisiones erráticas y poco eficientes bajo presión, al igual que le podría suceder a un humano.
En concreto, Google llevó a cabo una transmisión en Twitch de estos entrenamientos de Gemini en Pokémon de la mano del desarrollador independiente Joel Zhang, para que se pudiera ver en tiempo real cómo la IA resuelve los desafíos de Pokémon Azul, un videojuego infantil de hace 25 años lanzado para GameBoy.
Así, se llevaron a cabo dos demostraciones, en las que la diferencia principal fue la información que se le daba a Gemini. En la primera partida, se realizaron modificaciones y ajustes a medida que surgían dificultades, mientras que en la segunda prueba la IA fue completamente autónoma, sin datos previos, y actuó como si fuera un jugador completamente nuevo en el juego, que desconocía cualquier conocimiento previo.
Estas pruebas demostraron que en la primera ocasión, el modelo de lenguaje de Google fue mucho más lento que en la segunda tanda, ya que redujo significativamente el tiempo requerido para completar el juego de 813 horas a 406 horas, debido a las diversas "alucinaciones" que sufrió Gemini y a las dificultades que encontró para utilizar los píxeles si procesar de la pantalla.
De hecho, estos comportamientos erráticos de la IA se produjeron en "suficientes lugares como para que los miembros del chat de Twitch notaran activamente cuándo estaba ocurriendo", según precisa el texto de Google DeepMind.
No obstante, el experimento también ha mostrado la gran habilidad de lo que se denomina en el informe como "herramientas agénticas" de Gemini 2.5 Pro, implementadas en el modelo por el equipo de Google para resolver tareas específicas, como pueden ser los rompecabezas de rocas del juego o encontrar rutas eficientes para llegar a un destino.
Asimismo, dado que la mayoría de indicaciones para estas herramientas agénticas fueron escritas por el propio modelo, Google ha sugerido que es "bastante plausible" que Gemini 2.5 Pro sea capaz de crear estas herramientas por sí solo en un futuro, sin intervención humana.
Últimas Noticias
Microsoft planea miles de despidos, principalmente en área de ventas
Microsoft Corp. está planeando eliminar miles de puestos de trabajo, principalmente en el área de ventas, como parte de la última medida de la compañía para reducir su fuerza laboral en medio de un fuerte gasto en inteligencia artificial.
