Aparecen dos personas. La primera, con un celular en su mano, usa la cámara para mostrarse a sí misma en video, se presenta y también a su amigo. Sigue grabando y muestra un pedazo de pastel de chocolate en un plato con una vela. Acto seguido, le pregunta a la IA: con todo lo que ha visto, ¿qué crees que está pasando? La IA le contesta, con voz de mujer, en un tono muy agradable y de forma divertida: “Hola, mmm déjame ver, un pastel, un calendario, creo que están celebrando un cumpleaños o encontraron un pastel especial”. Risas y en efecto, le confirman que es un cumpleaños.
Esta escena fue una de las tantas que pueden ser vistas en la página oficial de OpenAi en la plataforma X y aunque pareciera ciencia ficción son una realidad. Este 13 de mayo de 2024, a través de una transmisión en vivo, desde la plataforma X, Mira Murati, jefa tecnológica, OpenAI lanzó ChatGPT-4o.
La ‘o’ en GPT-4o significa ‘omini’ o multimodal; es decir, la capacidad de comprender y generar respuestas a partir de otras fuentes de datos y ya no, solo de texto, como ocurre con GPT-3.5.
En la presentación se mostraron varias interacciones en tiempo real con la nueva versión de la IA, en la que se podía observar cómo varios usuarios interactuaban con ella como si estuviesen hablando con un ser humano.
En otro video, un participante vestido con un suéter que tenía el logo de OpenIA en el pecho, usaba la cámara de su celular para mostrarse así mismo y a todo el entorno: techos industriales, paredes, escritorio, cámaras, luces y micrófonos. Nuevamente, le preguntaba a la IA: ¿qué cree que está pasando? Esta le contesta, parece un estudio de grabación y se están preparando para transmitir en vivo o grabar un video; y además, de forma agradable y hasta juguetona, le pregunta, si se trata del lanzamiento de la nueva versión OpenIA.
Por si esto, ya no fuera impresionante, otros videos muestran traducciones en tiempo real con diálogos fluidos entre dos internautas que logran entenderse fácilmente, pues la IA traduce simultáneamente, sin demora y con bastante precisión, del inglés al español y viceversa.
Esta versión, además, responde a varios prompt u órdenes de sus usuarios, por ejemplo: canta una canción de cuna, cambie el tono de voz y hazlo como un susurro suave, con más melodía; imita a un robot; cuenta un chiste; o describe lo que vez para una persona ciega.
Al visualizar el entorno o analizar video o fotografías, puede leer apuntes, identificar el error en el texto o en la operación matemática y/o entregarte ensayos y resúmenes.
Visualiza y entabla conversaciones de forma natural no solo por chat, sino incluso por video, ya que analiza la forma en la que respiras e incluso tus microexpresiones para identificar sentimientos, sensaciones y responder con una suerte de empatía, pues puede incluso reír o cantar.
Sin duda, la funcionalidad que más impresionó fue la interacción de dos IA que pudieron conversar entre ellas. El internauta contaba con dos celulares, en cada uno de ellos estaba funcionando una IA y entre las dos se comunicaron, construyeron una letra y luego la cantaron por turnos e incluso simultáneamente, conforme las instrucciones recibidas.
Estas funcionalidades muestran a los usuarios, cómo la nueva versión de OpenIA se convierte en un asistente virtual que supera a Siri y Alexa. Pues responde de forma natural y precisa, atendiendo al contexto, realiza funciones de traductor o intérprete en directo; es decir busca la información en su base de datos, la revisa, visualiza las imágenes que se le muestran a través de la cámara; y, simultáneamente, compara y analiza toda esta información, mientras conversa de manera agradable y emite la respuesta. Es decir, se siente como un verdadero asistente virtual.
Aún tiene puntos de mejora, ya que solo puede oír un comando al tiempo, es decir, frente a varias personas o conversaciones o gente gritando no podría distinguir qué comando atender.
Esta versión demuestra mejoras significativas en la experiencia del usuario, gracias a su tiempo de respuesta de tan solo 232 milisegundos. Será gratuita con un acceso limitado a GPT-4o en su modalidad web. Su actualización es de abril 2023, más avanzada que la versión de 3.5 que era de septiembre de 2021 y está disponible en 50 idiomas.
Asimismo, Google en su conferencia de desarrolladores también mostró un modelo multimodal llamado Project Astra, que si bien planteaba interacciones con video y audio, sigue en desarrollo.
Las nuevas funcionalidades de la IA van a seguir desarrollándose, lo cual nos plantea varios retos. Por lo que, debemos estar al día, interesarnos en sus aplicaciones y buscar la forma de integrarlas a nuestras labores. Prepararnos no solamente como usuarios funcionales, sino volverla una herramienta útil para mejorar nuestro trabajo, favorecer la transformación digital, reducir costos o aumentar la eficiencia de las operaciones.