Proyecto astra

Proyecto Astra. El contraataque de Google en IA

Chat GPT todavía no tiene dos años, pero la idea de comunicarse con la inteligencia artificial escribiendo en una caja ya comienza a parecer peculiar. Un caso particular es el Proyecto Astra de Google. En la conferencia de desarrolladores de Google I/O el dia martes 14, Demis Hassabis, el ejecutivo que dirige el esfuerzo de la compañía para restablecer el liderazgo en IA, presentó un “asistente de IA de próxima generación” llamado Proyecto Astra.

Un videoclip lo mostró funcionando como una aplicación en un teléfono inteligente y también un par de prototipos de gafas inteligentes. El nuevo concepto cumple una promesa hecha por Hassabis acerca del potencial de Gemini cuando el modelo fue presentado por primera vez el pasado diciembre.

Lo que vimos de Proyecto Astra

En respuesta a las órdenes orales, Astra fue capaz de dar sentido a los objetos y escenas como se ven a través de las cámaras de los dispositivos, y hablar sobre ellos en lenguaje natural. Identificó un altavoces de ordenador y respondió a preguntas sobre sus componentes, reconoció un barrio de Londres desde la vista desde una ventana de una oficina, leyó y analizó el código de una pantalla de computadora, compuso un limerico sobre algunos lápices, y recordó dónde una persona había dejado un par de gafas o lentes.

Esa visión para el futuro de la IA es sorprendentemente similar a la presentada por OpenAI el lunes. OpenAI reveló una nueva interfaz para ChatGPT que puede conversar rápidamente por voz y hablar sobre lo que se ve a través de una cámara de smartphone o en una pantalla de ordenador. Esa versión de ChatGPT, impulsada por un nuevo modelo de IA llamado GPT-4o, también utiliza una voz más humana y un tono emocionalmente expresivo, simulando emociones como la sorpresa e incluso el flirteo.

El Proyecto Astra de Google utiliza la versión avanzada de Gemini Ultra, un modelo de IA desarrollado para competir con el que ha alimentado Chat GPT desde marzo de 2023. Gemini, al igual que el GPT-4o de OpenAI, es “multimodal”, lo que significa que ha sido entrenado en audio, imágenes y vídeo, así como texto, y puede ingerir, remixar y generar datos nativamente en todos esos formatos.

Google y OpenAI marcan el paso

El paso de Google y OpenAI a esa tecnología representa una nueva era en la IA generativa; los avances que dieron al mundo Chat GPT y sus competidores han venido hasta ahora de modelos de IA que trabajan exclusivamente con texto y tienen que ser combinados con otros sistemas para añadir capacidades de imagen o audio.

Leer Analizando rápidamente el nuevo diseño de YouTube

Hassabis dijo en una entrevista previa al evento de hoy que piensa que los chatbots de texto solo resultarán ser solo una “etapa transitoria” en la marcha hacia ayudantes de IA mucho más sofisticados –y esperemos que sean útiles–. “Esto siempre fue la visión detrás de Gemini”, añadió Hassabis. “Por eso lo hemos convertido en multimodal.”

El punto interesante que vino esta semana a explotar con esta competencia entre Google y OpenAI es que las nuevas versiones de Gemini y Chat GPT ven, escuchan y hablan como puede verse en las demostraciones, pero no está claro qué lugar encontrarán en los lugares de trabajo o en la vida personal. ¿Serán una nueva forma de Alexa o Siri para las personas en sus casas? ¿Una nueva herramienta de trabajo en las empresas que sustituirá máquinas o personas? Son preguntas que se hacen muchas personas.

Google afirma que a finales de este año, una nueva interfaz llamada Gemini Live será disponible para el Proyecto Astra. Assabis dijo que la empresa todavía estaba probando varios prototipos de gafas inteligentes y aún no había tomado una decisión sobre si lanzar alguno.

¿Qué más pueden surgir?

Según Hassabis, la clave para avanzar en la investigación de la IA y fortalecer sistemas como el Proyecto Astra es dar a los modelos de IA una comprensión más rica del mundo real. Cree que otros avances en la IA, como el trabajo de Google DeepMind en sistemas de IA que pueden jugar juegos, pueden ser beneficiosos. Hassabis y asociados anticipan que este tipo de trabajo podría ser revolucionario en el campo de la robótica, que Google también está financiando.

Hassabis dijo: «Un asistente de agente universal multimodal está en una especie de camino hacia la inteligencia general artificial», aludiendo a un futuro aún indefinido pero esperado en el que los robots serán capaces de realizar cualquier tarea que una mente humana pueda imaginar. «Este es solo el comienzo de algo; no es AGI o algo así.»

¿Que ideas tienes en mente sobre las principales funciones que tendrían estas herramientas en el futuro inmediato para nosotros? Déjame tus comentarios y con gusto los respondere.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio
×