Experimenté la encarnación de Géminis Live para comprender el mundo: ¡Shock!
Es desconcertante escuchar a una IA hablar en un tono extrañamente amigable y pedirme que limpie el desorden en mi estación de trabajo. Estoy bastante orgulloso de ello, pero creo que es hora de apilar las herramientas dispersas al azar y ordenar el desorden de cables.
Mi hermana también estaría de acuerdo. Pero entrar en acción después de que la IA “ve” mi escritorio, reconoce el desorden y ofrece consejos de limpieza es el panorama más amplio. El chatbot Gemini AI de Google ahora puede hacer exactamente eso. Y mucho más.
La salsa secreta aquí es una reciente actualización de funciones llamada Proyecto Astra. Estuvo en desarrollo durante años y finalmente comenzó a implementarse a principios de este mes. La idea general es ofrecer una IA que todo lo ve, todo lo escucha y es abiertamente inteligente en tu teléfono.
Google comercializa estos superpoderes bajo un nombre poco inspirador: Gemini Live con cámara y pantalla compartida. Desarrollado por la unidad DeepMind de la empresa, la empresa comenzó a desarrollarlo como un asistente de inteligencia artificial universal. Es una pena que el nombre final no sea ambicioso.

Comencemos con el modo de acceso. La capacidad ahora está disponible para los usuarios. 9 píxelesyGalaxy S25. Pero si tienes un teléfono Android con una suscripción a Gemini Advanced para usarlo, puedes acceder al nuevo kit de herramientas.
Eso serían 20 dólares al mes, por cierto. Lo probé en los dos teléfonos anteriores y ahora también funciona en mi OnePlus 13. ¿La parte más dulce? No es necesario pasar por ningún obstáculo técnico para llegar allí.
Una combinación de los botones de encendido/volumen, o deslizar la esquina de la pantalla para invocar a Géminis es todo lo que necesitas. Independientemente de qué aplicación estés ejecutando, puedes acceder a una nueva cámara y a compartir pantalla como una superposición en cada rincón del sistema operativo.
Comprender el mundo que te rodea
Comencé a apuntar la cámara hacia un cuadro y pregunté sobre él. Gemini Live pudo detectar con precisión que se trata de una pintura de estilo Madhubani, descifrando el uso audaz de los colores y la representación de los animales.

Luego procedió a darme una breve lección de historia y las diferencias que se han desarrollado a lo largo de los años. La información era precisa, hasta el nivel más mínimo. Afortunadamente, también puedes optar por tener una conversación de texto con Gemini, si estás en un lugar donde las conversaciones de voz pueden resultar incómodas.
Lo que más me gusta de la nueva función de cámara y compartir pantalla de Gemini Live es que no es demasiado habladora. Puedes interrumpir en cualquier momento, lo que aumenta el atractivo de las conversaciones “naturales”.
He probado Gemini en una variedad de escenarios. No estaba preparado para eso.
Las respuestas que da suelen ser breves, como si quisiera darte una oportunidad (o incluso un empujón) para hacer una pregunta de seguimiento en lugar de dar una respuesta demasiado larga. Se destaca en una amplia gama de temas y escenarios visuales, pero tiene algunos inconvenientes.

Todavía no puede usar Google Lens, lo que significa que Gemini no puede comparar las imágenes que ve en la pantalla de su teléfono con los resultados coincidentes en la web. Además, no puede acceder a información en tiempo real si le pides a Gemini que busque los últimos avances sobre un tema o personaje.
Le pregunté sobre especies de plantas, menús de restaurantes, captura de datos de tablones de anuncios y mi receta para un reciente episodio de gripe. Gemini funcionó muy bien, mejor que cualquier chatbot de IA que haya experimentado hasta ahora.
Liberando el Banco de Conocimiento: Un Análisis en Profundidad
A continuación, Géminis te impulsa a comprender temas académicos complejos. Puse un libro sobre aprendizaje automático en el marco de la cámara. Gemini Live no sólo lo reconoció, sino que también procedió a brindarme una descripción general del contenido y los temas principales del libro. Esta capacidad refleja una comprensión avanzada del aprendizaje automático y la capacidad de resumir información compleja.

Con curiosidad comencé a hojear las páginas y me encontré con la lista de capítulos. La IA reconoció el progreso, dejó de hablar y me preguntó si estaba interesado en alguna clase en particular ahora que estaba revisando la lista de temas. Esta característica demuestra la capacidad de Gemini para adaptarse y responder en tiempo real a la interacción del usuario, lo que lo convierte en una poderosa herramienta para el aprendizaje interactivo.
En ese momento me quedé completamente sorprendido.
Le pedí a la IA que analizara algunos temas complejos, e hizo un trabajo respetable, incluso yendo más allá del material de la página y recurriendo a su propio y vasto banco de conocimientos.
Por ejemplo, cuando le pregunté sobre el contenido de la página introductoria de la novela “Tamas” de Bhisham Sahni, la IA captó correctamente la referencia al Premio Sahitya Akademi. Luego mencionó detalles que ni siquiera estaban en la página, como el año en que ganó el prestigioso premio literario y de qué trata la novela. Esto demuestra la capacidad de la IA para comprender el contexto y extraer información adicional.
Por otro lado, leer hindi con Gemini Live fue horrible. No era sólo un mal acento, Géminis con frecuencia decía incoherencias y tonterías. Al intentar leer urdu, persa y árabe, lo hizo considerablemente mejor, pero a menudo confundía palabras de líneas al azar. Esto indica que el rendimiento de Gemini varía según el idioma y puede necesitar mejoras significativas en algunos idiomas.

En mi primer intento con la poesía urdu, no sólo reconoció el texto urdu, sino que también dio un resumen preciso del poema. El mayor desafío, una vez más, fue la narrativa. Escuchar la versión inglesa del urdu realmente me lastimó los oídos. Esto resalta la importancia de la pronunciación y la calidad del acento en la experiencia del usuario, especialmente cuando se trata de idiomas extranjeros.
sobresale en lugares inesperados
La inteligencia artificial es una gran herramienta para resolver problemas y existen numerosos puntos de referencia que lo demuestran. Lo probé en problemas de física relacionados con la termodinámica, ecuaciones electroquímicas y problemas de estadística que aparecieron en un cuaderno escrito a mano. Gemini Live ha hecho un gran trabajo en estas tareas.
Incluso sobresalió en tareas creativas. Mi hermana, diseñadora de moda, mostró uno de sus bocetos en cámara y pidió comentarios y mejoras. Gemini Live comenzó elogiando el diseño, haciendo comparaciones con las ideologías de diseño de algunas marcas de moda y ofreciendo algunas recomendaciones. Estas recomendaciones han sido muy útiles para mejorar el diseño.

Cuando se le pidió a AI que presentara Plus, también le aconsejó a mi hermana las mejores herramientas para convertir bocetos hechos a mano en conceptos digitales. Acompañaba estas instrucciones con información útil sobre el software y dónde encontrar materiales didácticos. Estos consejos fueron invaluables para agilizar el proceso de diseño digital.
Cuando coloqué un par de pilas Duracell en el campo de visión de la cámara, no solo las reconoció con precisión, sino que también me informó sobre plataformas de comercio electrónico locales que podían entregármelas en cuestión de minutos. Esta capacidad ha sido particularmente útil para identificar productos y su disponibilidad local.
Los servicios, llamados Blinkit y Swiggy Instamart, solo están disponibles en India y están destinados principalmente a ubicaciones urbanas. Incluso en una habitación con poca luz, pudo identificar un par de auriculares con cable en el primer intento. Esto demuestra la capacidad de la inteligencia artificial para reconocer objetos en diferentes condiciones.
La conciencia de la situación es su principal fortaleza.
En comparación con un chat normal de Gemini o lo que encuentra en la sección de descripción general de IA de la Búsqueda de Google, los chats de Gemini Live adoptan un enfoque más cauteloso para distribuir conocimiento, especialmente si es de naturaleza sensible. He observado que temas como recomendaciones alimentarias y tratamientos médicos se tratan con un enfoque cada vez más cauteloso, y a menudo se dirige a los usuarios a buscar el recurso experto adecuado. Esta advertencia refleja el enfoque de Google en proporcionar información precisa y confiable, especialmente en áreas que requieren experiencia especializada.
Algunos desafíos familiares

Mi conclusión principal es que la transformación del Proyecto Astra en Géminis es muy impresionante. Es un vistazo al futuro de lo que los teléfonos inteligentes pueden lograr. Con algunas mejoras, integraciones y flujos de trabajo entre aplicaciones, la Búsqueda de Google podría hacerte sentir como una reliquia. Pero por el momento, hay algunos fallos evidentes.
En algunas ocasiones noté que mi sistema de memoria se descontrolaba. Cuando se le pidió a la IA que identificara una banda de fitness en la vista de la cámara, la identificó correctamente como una Samsung Galaxy Fit 3. Pero cuando hice una pregunta de seguimiento, el dispositivo se identificó erróneamente como una banda de fitness Huawei.
También puede mentir descaradamente. Y con plena confianza, podría decir. Por ejemplo, cuando le pedí que resumiera mi reseña del wearable, la IA respondió que Digital Trends aún no lo había revisado. De hecho, el artículo fue publicado hace una semana.
A continuación, le pedí que explorara algunos artículos en mi página de autor después de habilitar la función de compartir pantalla. Géminis hizo un buen trabajo explicando las historias, pero a veces tropezó con la comprensión contextual. Por ejemplo, afirmó incorrectamente que sólo Intel y AMD podían fabricar unidades de procesamiento neuronal (NPU) elegibles para la insignia. Copiloto+.

Por otro lado, el artículo afirma claramente que Qualcomm fue el primero en cumplir con este estándar, por delante de la competencia. No fue hasta finales del año pasado que AMD e Intel finalmente lograron avanzar y cumplir con la línea base de chips de inteligencia artificial con una nueva línea de procesadores.
En medio de una conversación sobre un artículo, nuevamente tuvo un problema de memoria. En lugar de resumir la historia en discusión, volvió a hablar sobre el primer artículo que vio a través de la pantalla compartida. Cuando lo interrumpí a mitad de la narración, Géminis corrigió su error.
Otro problema que noté con la narración en idiomas distintos del inglés fue que Gemini Live cambiaba aleatoriamente la voz y la velocidad en medio de la narración. Fue extremadamente molesto y la pronunciación era completamente robótica, completamente diferente de sus habilidades humanas en el idioma inglés.

Las dificultades de visión artificial también surgen con líneas elegantes. En algunas ocasiones, escupió con confianza información incorrecta y, cuando se le pidió que se corrigiera, la IA expresó su incapacidad para encontrar la información más actualizada sobre el tema. Estos escenarios son raros, pero los errores de Géminis persisten.
En resumen, creo que Gemini Live con su cámara y pantalla compartida es uno de los mayores avances que la IA ha dado hasta ahora. Es una de las aplicaciones más prácticas y gratificantes de la IA generativa hasta la fecha. Todo lo que necesita es un poco de variedad y una solución para su síndrome del “mentiroso confiado”.
Sin duda, las cosas van por buen camino en este momento, en gran medida, pero aún estamos a algunos hitos críticos de ser el compañero de inteligencia artificial perfecto para los sueños tecnofuturistas.
Los comentarios están cerrados.