Gemini 1.5: la apuesta de Google para competirle a Open AI

Por décadas, Google ha sido gestora y pionera de las redes neuronales y del machine learning, dos de los ingredientes fundamentales de la denominada inteligencia artificial (IA). Con Gemini, el gigante digital plantea ahora un escenario muy interesante de cara a la que será una interesante batalla por hacerse con el estándar de IA global.

Tras el éxito que ha tenido Open AI con ChatGPT y ahora con Sora, que, en honor de la verdad, además de ser dos grandes arquitecturas de IA, han tenido también un mejor performance mediático, Google se ve en la necesidad de ripostar fuerte y rápido a la pelea que de manera eficiente le ha planteado su rival de la mano de Microsoft.

Y de eso se trata Gemini 1.5, una pieza estructural del Lego de AI que con esta actualización completa la oferta de Google con Gemini Nano, Gemini Pro, Gemini Ultra y Gemini Advanced, una completa plataforma de servicios en la nube y apps para móviles que, gratuitamente o bajo modelo de suscripción, apuntan a ofrecer experiencias de IA generativa y de negocios.

El nuevo Gemini 1.5, por ahora en prueba cerrada con desarrolladores, usa redes MoE (Mixture-of-Experts), que dividen el modelo en pequeñas redes neuronales que se activan según el tipo de información que se le dé y se le pida, reduciendo latencia y mejorando la capacidad de procesamiento. Ya hay clientes de Google probándolo a través de AI Studio y Vertex AI, plataformas de desarrollo e implementación IA para negocios.

OpenAI por supuesto no se ha quedado quieta. La semana pasada mostró a Sora, su IA generativa capaz de crear videos hiperrealistas con una sencilla indicación o pedido en texto. Si bien aún no está abierta a todos, los primeros ensayos dejaron perplejos al mundo entero por la calidad, nitidez y resolución de los contenidos generados: salvo algunos detalles, que seguro corregirán, son difícilmente identificables como creados por una IA.

¿Cómo y para qué usar estas IA?

En la actualidad, tanto ChatGPT como Gemini se pueden usar gratis como inteligencias artificiales generativas. Es decir, se les puede preguntar sobre infinidad de temas, en distintos idiomas y con variedad de insumos (se le puede dar un texto o contexto) para que genere respuestas muy pertinentes.

En nuestra experiencia, ChatGPT es más natural en su trato al usuario, mientras que Gemini ofrece enlaces contextuales de donde saca la información para generar sus respuestas.

Si el objetivo de usar una IA es para tareas sencillas, requerimientos básicos de trabajo, estudio o en el día a día, ambas opciones son suficientemente potentes y útiles, con el cuidado natural que debe tenerse, pues es posible que en sus respuestas se cuelen ‘alucinaciones’ o datos que no son del todo ciertos o concretos.

Pedir resúmenes de un texto, nuevas versiones en otro formato o estilo narrativo, traducciones, crear recetas, recomendaciones de distintas materias, oficiar como un experto en alguna profesión u oficio para explicar temas, crear documentos, etc., todo se puede lograr con suficiencia con ChatGPT y Gemini en versiones gratuitas.

Ahora bien, para usos más profesionales, en los que ambas plataformas ofrecen capacidades de procesamiento mejoradas, con una amplia variedad de servicios adicionales, Gemini Advanced y ChatGPT Plus son una opción por 20 dólares al mes.

En el caso de Gemini incluye todo lo que trae Google One con dos terabytes de almacenamiento en la nube e integración con Workspace (Docs, Gmail, Sheets, Slides), por ahora en inglés. El chatbot conversacional viene en 40 idiomas.

En Open AI el ChatGPT Plus incluye ChatGPT-4 y Dall-E, la primera con un modelo de IA más potente, eficiente y con capacidad de ‘entender’ imágenes; mientras que la segunda es una IA generativa de imágenes a partir de órdenes de texto.

Incluso, Copilot Pro es una buena opción porque incluye todo lo de ChatGPT Plus más la integración con el software de productividad de Microsoft 365, para usar la IA directo en Excel, Word, Outlook y PowerPoint, vía suscripción anual o mensual.

Sora, una sorpresa

Esta es una IA de Open AI, los mismos de ChatGPT y DALL-E , capaz de generar videos hiperrealistas con un texto (prompt) que se le da como insumo.

¿Qué videos puede crear? Cualquiera. Lo que se le ocurra, real, futurista, inventado, lo que sea, con una realidad y calidad visual, de máxima resolución, pasmosas.

¿Ya se puede usar? Todavía no está abierta al público. Open AI la prueba a puerta cerrada. La semana pasada mostró videos ya creados, y se volvieron virales.

¿Cuál es su novedad? Además de la calidad impresionante y realidad de los videos, es su poder de entendimiento de lenguaje natural para producir el contenido. Mientras mejor y más claramente, con muchos detalles, le pidamos el video, lo producirá con extrema calidad.

¿Para qué se usará? Sora tiene una amplia versatilidad en su uso para industrias creativas, investigación, desarrollo de contenidos, educación, comunicación, etc.

¿Cuándo estará disponible? Aún no hay una fecha exacta de salida al público, pero Open AI señaló que pronto estará disponible de manera abierta.