
Google planea presentar un agente impulsado por su modelo de Inteligencia Artificial (IA) Gemini que pueda administrar un navegador web para ayudar a los usuarios a ejecutar automáticamente tareas cotidianas, como investigar, comprar o reservar un vuelo.
Google trabaja en lo que recibe el nombre en clave 'Project Jarvis' (Proyecto Jarvis), cuya vista previa estará disponible a partir del próximo diciembre, según ha conocido recientemente The Information y recogido Engadget.
Este agente, que es capaz de controlar ordenadores, "responde a los comandos de un usuarios tomando la referencia de capturas de pantalla de lo que aparece en ella e interpretando estas imágenes antes de llevar a cabo acciones, como hacer clic en un botón o escribir en un campo de texto".
Jarvis está diseñado para funcionar en navegadores web y, más concretamente, en el que desarrolla la propia Google, Chrome, a fin de que pueda ayudar a los usuarios con tareas coticianas, como buscar en internet, hacer compras 'online' o reservar billetes de avión.
Para ello, Jarvis utilizará las capacidades de Gemini, que próximamente se actualizará con una versión más avanzada, Gemini 2.0, un cambio que también se espera que se anuncie en diciembre, tal y como ha podido conocer The Verge.
Anthropic dio a conocer hace unos días una iniciativa similar a la de Google, con su modelo de IA Claude 3.5 Sonnet, que ha mejorado su rendimiento en programación y en uso de herramientas de agente, que tiene la capacidad de utilizar un ordenador de la misma forma en que lo hace una persona.
Esto significa que ha enseñado a Claude una serie de habilidades informáticas y programas de 'software' diseñados para personas, con el objetivo de que el modelo pueda mover el cursor, hacer clic en botones o escribir texto.
Proyecto Jarvis también comparte similitudes con los últimos avances de Microsoft, que adelantó a principios de este mes que su asistente de IA, Copilot, había adquirido nuevas capacidades y que podía ver y razonar lo que se muestra en pantalla o hablar de forma natural con los usuarios mediante el modo conversacional Copilot Voice.
También lanzó la plataforma Copilot Labs, que permite probar funciones experimentales aún en desarrollo y que cuenta con la función Copilot Vision, desarrollada para ofrecer "una forma completamente nueva de interaccionar con un ordenador" y que es capaz de ver lo que hay en pantalla e interactuar con este contenido.
Últimas Noticias
Quito concluye su gira europea en Madrid para presentar su oferta turística a empresas españolas
Representantes de la capital ecuatoriana finalizan una serie de encuentros con profesionales del sector en la capital española, donde destacarán atractivos patrimoniales, sostenibilidad y propuestas gastronómicas, así como la conexión histórica que liga ambos destinos

(Crónica) El FC Barcelona aleja con goleada al Real Madrid de la Liga F

El presidente paquistaní firma la reforma constitucional que incluye inmunidad a jefe de Estado y del Ejército
La nueva normativa otorga protección legal permanente al mandatario paquistaní y al comandante militar, reduce atribuciones del máximo tribunal y crea un órgano especial para causas constitucionales, pese al rechazo y advertencias de la oposición sobre autoritarismo

(Previa) Deportivo y Las Palmas amenazan el liderato del debilitado Racing
El conjunto de Santander afronta bajas clave por compromisos internacionales ante el Granada, mientras que los candidatos al primer puesto deberán superar salidas exigentes frente al Valladolid y Córdoba respectivamente, en una jornada decisiva en la lucha por la cima

Una mujer alemana y sus dos hijos fallecen tras una intoxicación alimentaria en Estambul
