Tom y Jerry regresan en una versión generada por inteligencia artificial: tan reales que sorprenden

Los investigadores detrás de este proyecto destacan que es un gran avance, pero que tiene áreas de mejora como la naturalidad del movimiento de los objetos en los videos creados

Por Isabela Durán San Juan

Guardar

Los investigadores ingresadas descripciones de texto y la IA generaba escenas basadas en la serie animada.

Un equipo de investigadores de Nvidia y diversas universidades, como Stanford y Berkeley, llevó a cabo un experimento en el que le mostraron capítulos de la famosa serie animada Tom y Jerry a una inteligencia artificial.

El objetivo fue observar si la IA sería capaz de generar nuevas escenas basadas en la animación original. Para ello, los investigadores utilizaron “prompts”, es decir, indicaciones detalladas y descriptivas, para guiar el proceso de creación de las escenas.

La inteligencia artificial logró generar secuencias de hasta un minuto con tres segundos en las que los personajes de Tom y Jerry realizaban diversas actividades, como las clásicas persecuciones, Jerry comiendo queso o Tom intentando entrar al agujero en el que se esconde su rival.

Los investigadores entrenaron la IA

Los investigadores entrenaron la IA con capítulos de Tom y Jerry. (https://test-time-training.github.io/video-dit/)

Los investigadores utilizaron descripciones minuciosas para instruir a la inteligencia artificial, detallando elementos clave como el entorno y las acciones de los personajes. Un ejemplo de los prompts utilizados es el siguiente:

“La cocina está ordenada, con paredes pintadas de amarillo suave y un suelo de baldosas a cuadros blancos y azul pálido. En el centro se encuentra una mesa rectangular de madera teñida de marrón. Jerry, el ratón marrón, está sentado erguido sobre la mesa, sosteniendo un pequeño bloque de queso amarillo con ambas patas. La cámara permanece fija, captando la amplia sonrisa de Jerry mientras se lleva el queso a la boca y da un gran mordisco con alegría”.

Estos detalles permitieron que la IA generara escenas que no solo replicaban la estética de la serie, también captaban el dinamismo de los personajes.

Los investigadores usaban prompts muy

Los investigadores usaban prompts muy extensos para que la IA pudiera generar la escena. (https://test-time-training.github.io/video-dit/)

Este avance abre nuevas posibilidades en el campo de la inteligencia artificial aplicada a la creación de contenido visual, ya que muestra cómo los modelos de IA pueden aprender de los detalles de animaciones y generar escenas complejas a partir de instrucciones textuales muy específicas.

“La eficiencia de nuestra implementación también se puede mejorar. Solo hemos experimentado con vídeos de un minuto debido a limitaciones de recursos, pero el enfoque se puede extender a vídeos más largos e historias más complejas”, indican los investigadores.

Aunque los resultados obtenidos parecen prometedores, los investigadores señalaron que existen tres áreas clave que deben mejorarse para generar videos de mayor calidad con inteligencia artificial. “Los videos de un minuto generados demuestran un claro potencial como prueba de concepto, pero aún presentan artefactos notables”, indicaron. Las áreas que requieren mejoras son las siguientes:

Consistencia temporal: Los cuadros muestran una transformación abrupta entre segmentos de tres segundos dentro de la misma escena.
Naturalidad del movimiento: En algunas ocasiones, el queso flota en el aire en lugar de caer de manera natural al suelo.
Estética: La iluminación de la cocina se vuelve drásticamente más brillante cuando Tom se da la vuelta.

A pesar del avance, los

A pesar del avance, los investigadores indican que aún hay tres áreas de mejora. (https://test-time-training.github.io/video-dit/)

La inteligencia artificial es capaz de generar escenas de Tom y Jerry gracias a una técnica avanzada llamada Entrenamiento en Tiempo de Prueba (TTT). Este enfoque permite que las redes neuronales sean más expresivas, mejorando la generación de contenido visual.

Al agregar capas TTT a un Transformer preentrenado, la IA puede crear videos de un minuto a partir de guiones gráficos de texto. En un experimento, se utilizó un conjunto de datos basado en los dibujos animados de Tom y Jerry.

Comparado con otros métodos como Mamba 2 o Gated DeltaNet, las capas TTT produjeron videos mucho más coherentes y capaces de contar historias complejas. Esto se comprobó mediante una evaluación humana, donde los videos generados por TTT superaron a otros métodos por una ventaja de 34 puntos Elo en una prueba con 100 videos.

Elo es un sistema de puntuación utilizado para medir el nivel relativo de habilidad entre competidores, originado en ajedrez. En este contexto, se aplica para evaluar la calidad de los videos generados por inteligencia artificial.

Inteligencia artificial Nvidia Tom y Jerry Serie de televisión Tecnología Lo último en tecnología

Últimas Noticias

SpaceX se enfrenta por USD 100 millones del Pentágono para diseñar enjambres de drones controlados por voz

El concurso, que se desarrollará por fases, comienza con el desarrollo de software y progresará hacia pruebas reales y escenarios de uso avanzado

Estos son los estrenos de cine más esperados en Colombia según Google

Según los datos de Google Trends, ‘Pecadores’ se posiciona como la película más buscada en el país, generando un alto nivel de expectativa entre los cinéfilos

Cómo activar el modo Carnaval de Río de Janeiro en WhatsApp

Meta AI permite crear imágenes temáticas y acceder a información sobre la celebración; además, los tonos de notificación pueden personalizarse desde la app

Crean centro de inteligencia artificial en Colombia para formar expertos en ciberseguridad, IA y más

Los programas de formación incluirán tutoría virtual, contenidos en automatización, meta prompting, entre otros temas

La concentración de poder, la desaparición de empleos de oficina y la velocidad de los cambios ponen en jaque a gobiernos y profesionales en todo el mundo

La irrupción de la inteligencia artificial, liderada por un puñado de empresas, acelera la pérdida de empleos y desafía la capacidad de reacción de las instituciones, según advierte Matt Shumer en su columna

Alerta en Alpine: el nuevo problema en el motor Mercedes que pone en riesgo a su auto en la Fórmula 1

Diego Latorre dio detalles del día que dijo que Boca era “un cabaret”: la palabra que en realidad quiso utilizar

Benfica y Real Madrid se miden en el comienzo de los playoffs de la Champions League: la agenda completa

River Plate enfrentará a Ciudad de Bolívar en su debut en la Copa Argentina: hora, TV y formaciones

Náutico Hacoaj: historia y tradición de un club que tendrá dos semanas de tenis internacional

Pagani volvió a derrapar: el comentario sobre Costa que generó polémica: “Creí que era un tipo”

Yanina Latorre confesó que le fue infiel a Diego Latorre: “No es causalidad de divorcio”

El desgarrador mensaje de Marta González a 25 años de la muerte de su hijo Leandro: “Queda poco para que estemos juntos”

Entre la amistad y el trabajo, Diego Peretti y Federico D’Elía volvieron a actuar juntos después de Los Simuladores

La desafiante reacción de la China Suárez a las críticas que recibe: el atuendo y la frase que eligió

INFOBAE AMÉRICA

Ginebra se convierte en centro de la diplomacia mundial por las conversaciones Estados Unidos-Irán y Ucrania-Rusia

Ucrania alcanza el retorno de 2.000 niños deportados desde el inicio de la guerra

Entrenador panameño de fútbol anuncia su “nuevo equipo” antes del Mundial

El negocio del juego de azar en Panamá roza los $3,000 millones en 2025

El Pentágono en alerta por usuarios civiles que publican en tiempo real vuelos secretos de EEUU hacia Medio Oriente