Tech

Google Gemini: Todo lo que necesitas saber sobre los modelos de inteligencia artificial generativa

Espectro Social Thursday, October 24 2024

Google está tratando de marcar la diferencia con Gemini, su suite insignia de modelos de inteligencia artificial generativa, aplicaciones y servicios. Pero, ¿qué es Gemini? ¿Cómo puedes usarlo? ¿Y cómo se compara con otras herramientas de inteligencia artificial generativa como el ChatGPT de OpenAI, el Llama de Meta y el Copilot de Microsoft?

Para facilitar seguir las últimas novedades de Gemini, hemos creado esta útil guía, que mantendremos actualizada a medida que se lancen nuevos modelos de Gemini, características y noticias sobre los planes de Google para Gemini.

¿Qué es Gemini?

Gemini es la familia de modelos de inteligencia artificial generativa de última generación de Google. Desarrollado por los laboratorios de investigación en inteligencia artificial de Google, DeepMind y Google Research, viene en cuatro variantes:

Gemini Ultra
Gemini Pro
Gemini Flash, una versión más rápida y 'destilada' de Pro
Gemini Nano, dos modelos pequeños: Nano-1 y el ligeramente más capaz Nano-2, que está destinado a funcionar sin conexión

Todos los modelos de Gemini fueron entrenados para ser nativamente multimodales, es decir, capaces de trabajar y analizar más que solo texto. Google afirma que fueron preentrenados y ajustados en una variedad de datos públicos, propietarios y con licencia de audio, imágenes y videos; un conjunto de bases de código; y texto en diferentes idiomas.

Esto distingue a Gemini de modelos como LaMDA de Google, que fue entrenado exclusivamente en datos de texto. LaMDA no puede comprender ni generar nada más allá del texto (por ejemplo, ensayos, correos electrónicos, etc.), pero no necesariamente es el caso con los modelos de Gemini.

Debemos tener en cuenta aquí que la ética y legalidad de entrenar modelos en datos públicos, en algunos casos sin el conocimiento o consentimiento de los propietarios de los datos, son confusas. Google tiene una política de indemnización de inteligencia artificial para proteger a ciertos clientes de Google Cloud de demandas en caso de que se enfrenten a ellas, pero esta política contiene excepciones. Proceda con precaución, especialmente si tiene la intención de usar Gemini comercialmente.

¿Cuál es la diferencia entre las aplicaciones de Gemini y los modelos de Gemini?

Gemini es separado y distinto de las aplicaciones de Gemini en la web y móviles (anteriormente Bard).

Las aplicaciones de Gemini son clientes que se conectan a varios modelos de Gemini y añaden una interfaz de chatbot encima. Piensa en ellas como interfaces frontales para la inteligencia artificial generativa de Google, análogas a ChatGPT de Google y la familia de aplicaciones Claude de Anthropic.

Gemini en la web está aquí. En Android, la aplicación Gemini reemplaza la aplicación existente de Google Assistant. Y en iOS, las aplicaciones de Google y Google Search sirven como clientes de Gemini en esa plataforma.

En Android, también se volvió posible desplegar la superposición de Gemini sobre cualquier aplicación para hacer preguntas sobre lo que hay en la pantalla (por ejemplo, un video de YouTube). Simplemente mantén presionado el botón de encendido de un teléfono inteligente compatible o di 'Hola Google'; verás la superposición aparecer.

Las aplicaciones de Gemini pueden aceptar imágenes, comandos de voz y texto, incluidos archivos como PDF y próximamente videos, ya sea cargados o importados desde Google Drive, y generar imágenes. Como era de esperar, las conversaciones con las aplicaciones de Gemini en dispositivos móviles se trasladan a Gemini en la web y viceversa si has iniciado sesión con la misma cuenta de Google en ambos lugares.

Gemini Avanzado

Las aplicaciones de Gemini no son el único medio para reclutar la asistencia de los modelos de Gemini en tareas. Poco a poco, las funciones imbuidas de Gemini se están integrando en aplicaciones y servicios básicos de Google como Gmail y Google Docs.

Para aprovechar la mayoría de estas, necesitarás el Plan Premium de IA de Google One. Técnicamente parte de Google One, el Plan Premium de IA cuesta $20 y proporciona acceso a Gemini en aplicaciones de Google Workspace como Docs, Slides, Sheets y Meet. También habilita lo que Google llama Gemini Advanced, que lleva los modelos más sofisticados de Gemini de la compañía a las aplicaciones de Gemini.

Los usuarios de Gemini Advanced obtienen ventajas aquí y allá, como acceso prioritario a nuevas funciones, la capacidad de ejecutar y editar código Python directamente en Gemini, y una ventana de 'contexto' más grande. Gemini Advanced puede recordar el contenido de, y razonar a través de, aproximadamente 750,000 palabras en una conversación (o 1,500 páginas de documentos). Esto se compara con las 24,000 palabras (o 48 páginas) que la aplicación básica de Gemini puede manejar.

Otro exclusivo de Gemini Advanced es la planificación de viajes en Google Search, que crea itinerarios de viaje personalizados a partir de indicaciones. Tomando en cuenta cosas como los horarios de vuelo (de los correos electrónicos en la bandeja de entrada de Gmail de un usuario), preferencias de comidas e información sobre atracciones locales (de datos de Google Search y Maps), así como las distancias entre esas atracciones, Gemini generará un itinerario que se actualiza automáticamente para reflejar cualquier cambio.

Gemini en los servicios de Google también está disponible para clientes corporativos a través de dos planes, Gemini Business (un complemento para Google Workspace) y Gemini Enterprise. Gemini Business tiene un costo de tan solo $20 por usuario al mes, y Gemini Enterprise, que agrega toma de notas en reuniones y subtítulos traducidos, así como clasificación y etiquetado de documentos, tiene un precio de $30 en adelante por usuario al mes. (Ambos planes requieren un compromiso anual).

Gemini en Gmail, Docs, Chrome, herramientas de desarrollo y más

En Gmail, Gemini se encuentra en un panel lateral que puede escribir correos electrónicos y resumir hilos de mensajes. Encontrarás el mismo panel en Docs, donde te ayuda a escribir y refinar tu contenido y a generar nuevas ideas. Gemini en Slides genera diapositivas e imágenes personalizadas. Y Gemini en Google Sheets rastrea y organiza datos, creando tablas y fórmulas.

El alcance de Gemini se extiende a Drive, donde puede resumir archivos y dar datos rápidos sobre un proyecto. En Meet, por otro lado, Gemini traduce subtítulos a otros idiomas.

Recientemente, Gemini llegó al navegador Chrome de Google en forma de una herramienta de escritura de IA. Puedes usarlo para escribir algo completamente nuevo o reescribir texto existente; Google dice que considerará la página web en la que estés para hacer recomendaciones.

Además, encontrarás indicios de Gemini en los productos de bases de datos de Google, herramientas de seguridad en la nube y plataformas de desarrollo de aplicaciones (incluidos Firebase y Project IDX), así como en aplicaciones como Google Photos (donde Gemini maneja consultas de búsqueda en lenguaje natural), YouTube (donde ayuda a generar ideas para videos) y el asistente de toma de notas NotebookLM.

Code Assist (anteriormente Duet AI for Developers), la suite de herramientas de asistencia alimentadas por IA de Google para completar y generar código, está delegando la carga computacional pesada a Gemini. Lo mismo hacen los productos de seguridad de Google respaldados por Gemini, como Gemini en Threat Intelligence, que puede analizar grandes porciones de código potencialmente malicioso y permitir a los usuarios realizar búsquedas en lenguaje natural sobre amenazas en curso o indicadores de compromiso.

Extensiones y Gemas de Gemini

Anunciado en Google I/O 2024, los usuarios avanzados de Gemini pueden crear Gemas, chatbots personalizados alimentados por modelos de Gemini. Las Gemas pueden generarse a partir de descripciones en lenguaje natural, por ejemplo, “Eres mi entrenador de correr. Dame un plan diario de carrera”, y pueden compartirse con otros o mantenerse privadas.

Las Gemas están disponibles en escritorio y móviles en 150 países y la mayoría de los idiomas. Eventualmente, podrán aprovechar un conjunto ampliado de integraciones con los servicios de Google, incluidos Google Calendar, Tasks, Keep y YouTube Music, para completar tareas personalizadas.

Hablando de integraciones, las aplicaciones Gemini en la web y móviles pueden conectarse a los servicios de Google a través de lo que Google llama "extensiones de Gemini". Actualmente, Gemini se integra con Google Drive, Gmail y YouTube para responder a consultas como “¿Podrías resumir mis últimos tres correos electrónicos?”. Más adelante este año, Gemini podrá realizar acciones adicionales con Google Calendar, Keep, Tasks, YouTube Music y Utilities, las aplicaciones exclusivas de Android que controlan funciones en el dispositivo como temporizadores y alarmas, controles de medios, linterna, volumen, Wi-Fi, Bluetooth, y más.

Chats de voz en profundidad en vivo de Gemini

Una nueva experiencia llamada Gemini Live, exclusiva para suscriptores avanzados de Gemini, permite a los usuarios tener chats de voz "en profundidad" con Gemini. Está disponible en las aplicaciones de Gemini en móviles y Pixel Buds Pro 2, donde se puede acceder incluso cuando el teléfono está bloqueado.

Con Gemini Live activado, puedes interrumpir a Gemini mientras el chatbot está hablando (en una de varias voces nuevas) para hacer una pregunta aclaratoria, y se adaptará a tus patrones de habla en tiempo real. Y más adelante este año, Gemini podrá ver y responder a tu entorno, ya sea a través de fotos o videos capturados por las cámaras de tus teléfonos inteligentes.

Se espera que Live también sirva como una especie de entrenador virtual, ayudándote a ensayar para eventos, brainstorming de ideas, y más. Por ejemplo, Live puede sugerir qué habilidades resaltar en una próxima entrevista de trabajo o pasantía, y puede dar consejos sobre hablar en público.

Puedes leer nuestra reseña de Gemini Live aquí. Spoiler: Creemos que la función aún tiene camino por recorrer antes de ser super útil, pero es solo el principio, hay que admitirlo.

Generación de imágenes a través de Imagen 3

Los usuarios de Gemini pueden generar arte e imágenes utilizando el modelo interno de Imagen 3 de Google.

Google dice que Imagen 3 puede entender con mayor precisión las indicaciones de texto que traduce en imágenes en comparación con su predecesor, Imagen 2, y es más 'creativo y detallado' en sus generaciones. Además, el modelo produce menos artefactos y errores visuales (al menos según Google), y es el mejor modelo de Imagen hasta ahora para representar texto.

En febrero, Google se vio obligado a pausar la capacidad de Gemini de generar imágenes de personas después de que los usuarios se quejaran de inexactitudes históricas. Pero en agosto, la compañía reintrodujo la generación de personas para ciertos usuarios, específicamente usuarios de habla inglesa inscritos en uno de los planes pagos de Gemini de Google (por ejemplo, Gemini Advanced) como parte de un programa piloto.

Gemini para adolescentes

En junio, Google introdujo una experiencia de Gemini enfocada en adolescentes, permitiendo que los estudiantes se registren a través de sus cuentas escolares de Google Workspace for Education.

El Gemini enfocado en adolescentes tiene 'políticas y salvaguardias adicionales', que incluyen un proceso de incorporación personalizado y una 'guía de alfabetización en IA' para (como lo expresa Google) 'ayudar a los adolescentes a usar la IA de manera responsable'. De lo contrario, es casi idéntico a la experiencia estándar de Gemini, hasta la función 'verificar doble' que revisa en la web para ver si las respuestas de Gemini son precisas.

Gemini en dispositivos de hogar inteligente

Un número creciente de dispositivos fabricados por Google utilizan Gemini para funcionalidades mejoradas, desde el Google TV Streamer hasta el Pixel 9 y 9 Pro hasta el último Nest Learning Thermostat.

En el Google TV Streamer, Gemini utiliza tus preferencias para seleccionar sugerencias de contenido a través de tus suscripciones y resumir reseñas e incluso temporadas completas de televisión.

En el último termostato Nest (así como en los altavoces Nest, cámaras y pantallas inteligentes ), Gemini pronto reforzará las capacidades conversacionales y analíticas de Google Assistant.

Los suscriptores del plan Nest Aware de Google más adelante este año recibirán un adelanto de nuevas experiencias alimentadas por Gemini como descripciones de IA para imágenes de cámaras Nest, búsqueda de videos en lenguaje natural y automatizaciones recomendadas. Las cámaras Nest comprenderán lo que está sucediendo en las soluciones de video en tiempo real (por ejemplo, cuando un perro está cavando en el jardín), mientras que la aplicación complementaria Google Home mostrará videos y creará automatizaciones de dispositivos con una descripción (por ejemplo, '¿Dejaron los niños sus bicicletas en el camino?,' 'Haz que mi termostato Nest encienda la calefacción cuando regrese del trabajo todos los martes').

Gemini pronto podrá resumir imágenes de cámaras de seguridad de dispositivos Nest.

También más adelante este año, Google Assistant recibirá algunas mejoras en los dispositivos domésticos inteligentes de Nest y otros para que las conversaciones se sientan más naturales. Se esperan voces mejoradas, además de la capacidad de hacer preguntas de seguimiento y "[más] fácilmente ir y venir".

¿Qué pueden hacer los modelos de Gemini?

Como los modelos de Gemini son multimodales, pueden realizar una variedad de tareas multimodales, desde transcribir discursos hasta subtitular imágenes y videos en tiempo real. Muchas de estas capacidades han llegado a la etapa de producto (como se insinuó en la sección anterior), y Google promete mucho más en un futuro no muy lejano.

Por supuesto, es un poco difícil creer a la empresa en su palabra. Google incumplió gravemente con el lanzamiento original de Bard. Más recientemente, ha molestado a algunos con un video que pretendía mostrar las capacidades de Gemini que eran más o menos aspiracionales, no en vivo.

Además, Google

Espectro Social