Un equipo de investigadores de Nvidia y diversas universidades, como Stanford y Berkeley, llevó a cabo un experimento en el que le mostraron capítulos de la famosa serie animada Tom y Jerry a una inteligencia artificial.
El objetivo fue observar si la IA sería capaz de generar nuevas escenas basadas en la animación original. Para ello, los investigadores utilizaron “prompts”, es decir, indicaciones detalladas y descriptivas, para guiar el proceso de creación de las escenas.
La inteligencia artificial logró generar secuencias de hasta un minuto con tres segundos en las que los personajes de Tom y Jerry realizaban diversas actividades, como las clásicas persecuciones, Jerry comiendo queso o Tom intentando entrar al agujero en el que se esconde su rival.

Los investigadores utilizaron descripciones minuciosas para instruir a la inteligencia artificial, detallando elementos clave como el entorno y las acciones de los personajes. Un ejemplo de los prompts utilizados es el siguiente:
“La cocina está ordenada, con paredes pintadas de amarillo suave y un suelo de baldosas a cuadros blancos y azul pálido. En el centro se encuentra una mesa rectangular de madera teñida de marrón. Jerry, el ratón marrón, está sentado erguido sobre la mesa, sosteniendo un pequeño bloque de queso amarillo con ambas patas. La cámara permanece fija, captando la amplia sonrisa de Jerry mientras se lleva el queso a la boca y da un gran mordisco con alegría”.
Estos detalles permitieron que la IA generara escenas que no solo replicaban la estética de la serie, también captaban el dinamismo de los personajes.

Este avance abre nuevas posibilidades en el campo de la inteligencia artificial aplicada a la creación de contenido visual, ya que muestra cómo los modelos de IA pueden aprender de los detalles de animaciones y generar escenas complejas a partir de instrucciones textuales muy específicas.
“La eficiencia de nuestra implementación también se puede mejorar. Solo hemos experimentado con vídeos de un minuto debido a limitaciones de recursos, pero el enfoque se puede extender a vídeos más largos e historias más complejas”, indican los investigadores.
Qué defectos se identificaron en las escenas
Aunque los resultados obtenidos parecen prometedores, los investigadores señalaron que existen tres áreas clave que deben mejorarse para generar videos de mayor calidad con inteligencia artificial. “Los videos de un minuto generados demuestran un claro potencial como prueba de concepto, pero aún presentan artefactos notables”, indicaron. Las áreas que requieren mejoras son las siguientes:
- Consistencia temporal: Los cuadros muestran una transformación abrupta entre segmentos de tres segundos dentro de la misma escena.
- Naturalidad del movimiento: En algunas ocasiones, el queso flota en el aire en lugar de caer de manera natural al suelo.
- Estética: La iluminación de la cocina se vuelve drásticamente más brillante cuando Tom se da la vuelta.

Por qué la IA es capaz de generar escenas de Tom y Jerry
La inteligencia artificial es capaz de generar escenas de Tom y Jerry gracias a una técnica avanzada llamada Entrenamiento en Tiempo de Prueba (TTT). Este enfoque permite que las redes neuronales sean más expresivas, mejorando la generación de contenido visual.
Al agregar capas TTT a un Transformer preentrenado, la IA puede crear videos de un minuto a partir de guiones gráficos de texto. En un experimento, se utilizó un conjunto de datos basado en los dibujos animados de Tom y Jerry.
Comparado con otros métodos como Mamba 2 o Gated DeltaNet, las capas TTT produjeron videos mucho más coherentes y capaces de contar historias complejas. Esto se comprobó mediante una evaluación humana, donde los videos generados por TTT superaron a otros métodos por una ventaja de 34 puntos Elo en una prueba con 100 videos.
Elo es un sistema de puntuación utilizado para medir el nivel relativo de habilidad entre competidores, originado en ajedrez. En este contexto, se aplica para evaluar la calidad de los videos generados por inteligencia artificial.
Últimas Noticias
SpaceX se enfrenta por USD 100 millones del Pentágono para diseñar enjambres de drones controlados por voz
El concurso, que se desarrollará por fases, comienza con el desarrollo de software y progresará hacia pruebas reales y escenarios de uso avanzado
Estos son los estrenos de cine más esperados en Colombia según Google
Según los datos de Google Trends, ‘Pecadores’ se posiciona como la película más buscada en el país, generando un alto nivel de expectativa entre los cinéfilos

Cómo activar el modo Carnaval de Río de Janeiro en WhatsApp
Meta AI permite crear imágenes temáticas y acceder a información sobre la celebración; además, los tonos de notificación pueden personalizarse desde la app

Crean centro de inteligencia artificial en Colombia para formar expertos en ciberseguridad, IA y más
Los programas de formación incluirán tutoría virtual, contenidos en automatización, meta prompting, entre otros temas

La concentración de poder, la desaparición de empleos de oficina y la velocidad de los cambios ponen en jaque a gobiernos y profesionales en todo el mundo
La irrupción de la inteligencia artificial, liderada por un puñado de empresas, acelera la pérdida de empleos y desafía la capacidad de reacción de las instituciones, según advierte Matt Shumer en su columna


