Un equipo de investigadores de Nvidia y diversas universidades, como Stanford y Berkeley, llevó a cabo un experimento en el que le mostraron capítulos de la famosa serie animada Tom y Jerry a una inteligencia artificial.
El objetivo fue observar si la IA sería capaz de generar nuevas escenas basadas en la animación original. Para ello, los investigadores utilizaron “prompts”, es decir, indicaciones detalladas y descriptivas, para guiar el proceso de creación de las escenas.
La inteligencia artificial logró generar secuencias de hasta un minuto con tres segundos en las que los personajes de Tom y Jerry realizaban diversas actividades, como las clásicas persecuciones, Jerry comiendo queso o Tom intentando entrar al agujero en el que se esconde su rival.

Los investigadores utilizaron descripciones minuciosas para instruir a la inteligencia artificial, detallando elementos clave como el entorno y las acciones de los personajes. Un ejemplo de los prompts utilizados es el siguiente:
“La cocina está ordenada, con paredes pintadas de amarillo suave y un suelo de baldosas a cuadros blancos y azul pálido. En el centro se encuentra una mesa rectangular de madera teñida de marrón. Jerry, el ratón marrón, está sentado erguido sobre la mesa, sosteniendo un pequeño bloque de queso amarillo con ambas patas. La cámara permanece fija, captando la amplia sonrisa de Jerry mientras se lleva el queso a la boca y da un gran mordisco con alegría”.
Estos detalles permitieron que la IA generara escenas que no solo replicaban la estética de la serie, también captaban el dinamismo de los personajes.

Este avance abre nuevas posibilidades en el campo de la inteligencia artificial aplicada a la creación de contenido visual, ya que muestra cómo los modelos de IA pueden aprender de los detalles de animaciones y generar escenas complejas a partir de instrucciones textuales muy específicas.
“La eficiencia de nuestra implementación también se puede mejorar. Solo hemos experimentado con vídeos de un minuto debido a limitaciones de recursos, pero el enfoque se puede extender a vídeos más largos e historias más complejas”, indican los investigadores.
Qué defectos se identificaron en las escenas
Aunque los resultados obtenidos parecen prometedores, los investigadores señalaron que existen tres áreas clave que deben mejorarse para generar videos de mayor calidad con inteligencia artificial. “Los videos de un minuto generados demuestran un claro potencial como prueba de concepto, pero aún presentan artefactos notables”, indicaron. Las áreas que requieren mejoras son las siguientes:
- Consistencia temporal: Los cuadros muestran una transformación abrupta entre segmentos de tres segundos dentro de la misma escena.
- Naturalidad del movimiento: En algunas ocasiones, el queso flota en el aire en lugar de caer de manera natural al suelo.
- Estética: La iluminación de la cocina se vuelve drásticamente más brillante cuando Tom se da la vuelta.

Por qué la IA es capaz de generar escenas de Tom y Jerry
La inteligencia artificial es capaz de generar escenas de Tom y Jerry gracias a una técnica avanzada llamada Entrenamiento en Tiempo de Prueba (TTT). Este enfoque permite que las redes neuronales sean más expresivas, mejorando la generación de contenido visual.
Al agregar capas TTT a un Transformer preentrenado, la IA puede crear videos de un minuto a partir de guiones gráficos de texto. En un experimento, se utilizó un conjunto de datos basado en los dibujos animados de Tom y Jerry.
Comparado con otros métodos como Mamba 2 o Gated DeltaNet, las capas TTT produjeron videos mucho más coherentes y capaces de contar historias complejas. Esto se comprobó mediante una evaluación humana, donde los videos generados por TTT superaron a otros métodos por una ventaja de 34 puntos Elo en una prueba con 100 videos.
Elo es un sistema de puntuación utilizado para medir el nivel relativo de habilidad entre competidores, originado en ajedrez. En este contexto, se aplica para evaluar la calidad de los videos generados por inteligencia artificial.
Últimas Noticias
Guía de cómo elegir una batería portátil para cargar cualquier dispositivo en lugares sin electricidad
Estos accesorios son útiles en situaciones como apagones o ausencia de tomas de corriente y suelen no implicar un gasto elevado. Al comprar una se debe prestar atención al tipo y número de puertos, su potencia y capacidad

Mercado de criptomonedas: cuál es el valor de ethereum
Ethereum fue creada en 2015 por el programador Vitalik Buterin, con la intención de impulsar un instrumento para aplicaciones descentralizadas y colaborativas

El precio de la criptomoneda bitcoin este 16 de julio
El bitcoin fue la primera moneda virtual lanzada en el mundo y ha llegado a superar las 68 mil unidades de dólar

Tether: cuál es la cotización de esta criptomoneda
Esta moneda digital se ha visto envuelta en diversas polémicas, principalmente por asegurar que cada token está respaldado por un dólar

La mente detrás del “ChatGPT médico”, que convirtió una crisis de información científica en un imperio tecnológico
Daniel Nadler diseñó una plataforma de inteligencia artificial adoptada masivamente por profesionales de la salud en Estados Unidos
