Introducción
En los últimos días en Ecuador se han producido dos tendencias referentes al uso de aplicaciones de Inteligencia Artificial (IA). En la primera, los usuarios están convirtiendo susfotografías a estilos de anime, como los del estudio Ghibli, o estilos de otras series animadas. En la segunda, a través de la red social X, múltiples usuarios están realizando consultas variadas al modelo generativo Grok. En este artículo vamos a analizar qué está detrás de estas dos tendencias y los cuidados que debemos tener al usar herramientas generativas de IA.
¿Qué son los modelos generativos de IA?
Un modelo generativo es un sistema de IA que retorna resultados que se asemejan a los datos con los que fue entrenado. Usualmente, estos sistemas están basados en el uso de redes neuronales artificiales, que es un algoritmo de IA inspirado en la estructura cerebral de los mamíferos. Los modelos generativos actuales tienen un gran tamaño, que típicamente alcanza las centenas de miles de millones de parámetros que se ajustan o modifican durante su entrenamiento.
Para tener una idea de cuán grandes son los modelos generativos actuales, si asumimos que cada persona de nuestro planeta es un parámetro que se ajusta durante el entrenamientode una red neuronal artificial, estos modelos generativos tienen un tamaño (en parámetros) que es más de 10 veces la población de la Tierra.
La razón por la que los modelos generativos son grandes, o en realidad gigantes, es porque solo con estos tamaños exhiben propiedades emergentes como la simulación de comprensión avanzada del lenguaje natural. El lenguaje natural es lo queusamos las personas para comunicarnos, por ejemplo, el idioma inglés, español, alemán, etc.
¿Cuánto cuesta desarrollar un modelo generativo?
Desarrollar estos modelos generativos grandes es una tarea monumental que no cualquier empresa o individuo lo puede realizar. Las razones son simples, se requiere ingentes cantidades de datos, gran capacidad computacional especializada, y conocimiento humano del más alto nivel en IA. Como es obvio suponer, estos elementos representan costos económicos muy elevados, que sólo los gigantes tecnológicos como OpenAI, Google, Meta (Facebook), entre otros, lo pueden cubrir.
Por ejemplo, se estima que Meta invirtió aproximadamente 75millones de dólares en desarrollar su modelo abierto Llama 3,cuya red neuronal artificial tiene 405 mil millones de parámetros. Se ha estimado también que el entrenamiento de este modelo liberó un aproximado de 4400 toneladas equivalente de CO2, lo cual equivale al viaje de unas 2000 personas, ida y vuelta, entre el aeropuerto John F. Kennedy de Estados Unidos y el Aeropuerto Internacional de Londres Heathrow.
Pero los altos costos no son exclusivos para la etapa de desarrollo de los modelos generativos, sino también para su operación, que es cuando los usuarios pueden usarlos. Desafortunadamente, los datos exactos sobre los costos operativos son mantenidos en reserva por parte de las empresas que los desarrollan y operan.
¿Qué tipos de modelos generativos disponemos?
Los primeros modelos generativos que se popularizaron entre el público general fueron los que recibían y retornaban únicamente texto. Debido a esta característica se los llamó modelos de lenguaje grandes o LLMs (del inglés Large Language Models). El primero de estos modelos, que tuvo un uso masivo entre el público general, fue ChatGPT-3.5, de OpenAI. Este LLM fue lanzado el 30 de noviembre de 2022.
En poco tiempo, los LLMs han evolucionado para recibir y retornar otros tipos o modos de datos, aparte de texto, como por ejemplo voz. A los modelos con esta capacidad se los denomina modelos multimodales. Hoy en día tenemos modelos generativos multimodales que pueden recibir texto, voz, imágenes e inclusive video, y a la salida pueden retornar texto, voz (con tonos que simulan emociones) e imágenes realistas. Un ejemplo de este tipo de sistemas es ChatGPT-4o, de Open AI, el cual fue lanzado hace casi un año, el 13 de mayo de 2024.
Adicionalmente, también tenemos modelos que antes de retornar una respuesta la refinan o la mejoran destinando un cierto tiempo de cálculo, el cual es proporcional a la complejidad de la tarea que deben ejecutar. Estos algoritmos de IA son denominados modelos de razonamiento, porque simulan esta capacidad de la inteligencia humana. Los modelos más destacados de esta categoría son ChatGPT-o3, de Open AI, y DeepSeek.
¿Por qué el público está generando imágenes con estilos de anime?
A pesar de que ChatGPT-4o fue lanzado hace un año, la funcionalidad de retornar imágenes estuvo bloqueada para el acceso de sus usuarios. En su lugar, cuando una persona generaba imágenes usando ChatGPT, estas eran producidas por un modelo generativo llamado Dall-E. La calidad de estas imágenes era aceptable para ciertas tareas, pero con un largo espectro por mejorar.
El 25 de marzo de este año OpenAI liberó al público la funcionalidad de generación de imágenes con el modelo 4oque lo tenía bloqueado. Lo interesante de este modelo multimodal es su capacidad avanzada de comprensión y generación de imágenes. Una vez liberada esta funcionalidad, los usuarios rápidamente empezaron a usarla para diferentes propósitos: generación de imágenes realistas, generación de imágenes conteniendo texto o infografías, y adaptación de imágenes a ciertos estilos. Es justamente en esta última tarea donde aparece la tendencia de adaptación de imágenes con estilos de series animadas, como el de Ghibli.
¿Por qué la gente le pregunta a Grok?
Grok es un modelo generativo multimodal que puede procesartexto e imágenes, desarrollado por xAI, de propiedad de Elon Musk. Esta herramienta está integrada en la red social X y puede ser usada por las cuentas gratuitas y de pago de esta plataforma. Por lo tanto, los usuarios pueden interactuarfácilmente con Grok, el cual puede hacer consultas usando labase de datos de X. Adicionalmente, muchos usuarios atribuyen a Grok una capacidad de dar respuestas veraces y sin sesgos.
Desafortunadamente, como todo LLM, Grok tiene fortalezas y debilidades y no está ajeno a problemas como alucinaciones y sesgos que están presentes en todos los modelos generativos de IA. Por lo tanto, si usted le consulta a Grok, no crea todo lo que le responde, porque puede ser falso, sesgado o impreciso.
Conclusión
Las aplicaciones y servicios de IA avanzan muy rápidamentey nos ofrecen una amplia gama de posibilidades. Cuando las nuevas funcionalidades se lanzan al público, surgen tendenciasque en ocasiones se viralizan gracias a las redes sociales. Una tendencia actual es usar ChatGPT-4o para adaptar imágenes a estilos de series animadas, como el Ghibli. Otra tendencia esconsultar a Grok sobre temas variados a través de X. Sin embargo, hay que tener presente que estas herramientas generativas sufren de problemas como dar respuestas imprecisas, falsas, o con sesgo. Adicionalmente, las empresas que desarrollan modelos generativos están en constante recopilación de datos, que es el combustible fundamental que necesitan para su desarrollo. Por lo tanto, lo recomendable es usar estas herramientas de IA con responsabilidad y cautela. Finalmente, también es recomendable usar estos modelos para generar y agregar valor para su vida o su trabajo, pues sirven para muchas más cosas que simplemente producir entretenimiento.