Meta presenta V-JEPA 2, el modelo con el que enseña a los robots a desenvolverse en el mundo real como los humanos

Meta desarrolló V-JEPA 2, un modelo avanzado para entrenar robots en tareas reales mediante vídeos, mejorando su capacidad para planificar acciones en entornos desconocidos y facilitar la interacción con objetos

Guardar

V-JEPA 2 es un nuevo modelo de Meta entrenado con vídeos y diseñado para que la inteligencia artificial aprenda a desenvolverse en el mundo real de la misma forma que los humanos.

El nuevo modelo forma parte de los trabajos de Meta por lograr una inteligencia de máquinas avanzada (AMI) y desarrollar agentes que puedan operar en el mundo real. Es la siguiente generación de V-JEPA, que Meta presentó en febrero del año pasado como un modelo no generativo desarrollado para enseñar a las máquinas a comprender y modelar el mundo físico mediante la visualización de vídeos.

V-JEPA 2 mejora las capacidades de predicción de acciones y modelado del mundo, lo que permite a los robots interactuar con objetos y entornos desconocidos para completar tareas, como explica la compañía en una nota de prensa.

Tiene 1.200 millones de parámetros y ha sido entrenado con vídeos sin necesidad de anotaciones humanas adicionales, con técnicas de aprendizaje automático avanzadas, en un proceso que consta de dos fases: un preentrenamiento sin acciones y un entrenamiento adicional condicionado por acciones.

Meta ha entrenado V-JEPA 2 con la base de datos de código abierto DROID y desplegado directamente en robots, que han demostrado que pueden planificar lo que van a hacer en entornos nuevos incluso con objetos que no han visto antes, y realizar acciones básicas como alcanzar, recoger un objeto y colocarlo en una nueva ubicación.

A partir de una imagen, que muestra el objetivo (dejar un vaso en una mesita), el robot planifica la forma conseguirlo, que este caso incluye dos subobjetivos: coger el vaso y moverlo. Para ello, idea "posibles futuros en un espacio latente" y selecciona el que tiene mayor probabilidad de éxito.

V-JEPA 2 aprende y realiza predicciones en una única escala temporal lo que significa que actualmente no puede realizar una tarea que implique varios pasos, como hornear un pastel. Por eso, Meta espera mejorar sus capacidades en múltiples escalas temporales y espaciales e incorporar la multimodalidad, para ampliar la predicción a sentidos distintos de la vista.