fbpx

GPT-4o: el nuevo modelo de OpenAI

En una conferencia de prensa celebrada el lunes 13 de mayo de 2024, un día antes del IO de Google, OpenAI presentó su nuevo modelo de lenguaje, GPT-4o, más potente que GPT-4 y ya disponible para todos los usuarios de GPT-4. Al mismo tiempo, la compañía lanzó una nueva aplicación de ChatGPT para macOS. ¡Vamos a repasar los detalles!

GPT-4o: el nuevo modelo insignia de OpenAI

La “o” de GPT-4o significa “omnimodelo”, lo que indica que el modelo puede procesar nativamente varios tipos de formatos. Según OpenAI, las capacidades del modelo son similares a las de GPT-4, pero con una mayor rapidez y mejores rendimientos en algunos ámbitos, como la voz y la imagen. Además, GPT-4o podrá próximamente soportar el formato de video, incluyendo el video en tiempo real.

En el futuro, las mejoras permitirán una conversación vocal más natural y en tiempo real, así como la posibilidad de conversar con ChatGPT a través de un video en tiempo real. Por ejemplo, podrías mostrar a ChatGPT un partido de deportes en directo y pedirle que te explique las reglas.

En su página de presentación del modelo, OpenAI presenta algunos ejemplos de sus capacidades, particularmente en la creación e iteración de visuales, con resultados a menudo impresionantes.

Capacidades avanzadas en reconocimiento vocal y análisis de imagen

En su comparativo técnico, OpenAI precisa que GPT-4o alcanza niveles comparables a GPT-4 Turbo en texto, razonamiento y codificación, pero que “establece nuevas referencias en cuanto a capacidades multilingües, de audio y visuales”. Respecto a las capacidades orales, especialmente el reconocimiento y el discurso, los resultados compartidos muestran que la tasa de error de GPT-4o es significativamente menor que la de Whisper, el modelo de reconocimiento vocal utilizado previamente por OpenAI en sus productos.

OpenAI explica que el nuevo modelo, omnimodelo, es único y está entrenado de extremo a extremo para texto, visión y audio, “lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal”. A diferencia, el modo vocal con GPT-3.5 y GPT-4 implica la articulación de tres modelos diferentes, lo que genera un tiempo de latencia y una pérdida de información.

Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, los múltiples locutores o los ruidos de fondo, y no puede emitir risas, cantos o expresar emociones, señala OpenAI.

GPT-4o accesible para todos los usuarios de GPT-4

GPT-4o está actualmente disponible para los usuarios de los planes de pago ChatGPT Plus y Team. Los suscriptores del plan Enterprise tendrán que esperar unas semanas para poder beneficiarse de él. Además, el nuevo modelo está integrado en la versión gratuita del chatbot, pero con un límite de mensajes hasta cinco veces inferior al de los usuarios de ChatGPT Plus.

El número de mensajes que los usuarios gratuitos pueden enviar con GPT-4o estará limitado en función del uso y la demanda. Cuando se alcance el límite, ChatGPT cambiará automáticamente a GPT-3.5 para que los usuarios puedan continuar sus conversaciones, precisa OpenAI.

A partir de ahora, los usuarios de la versión gratuita de ChatGPT pueden probar funciones hasta ahora reservadas para los planes de pago, tales como el acceso a la web, el análisis de datos, el análisis de imágenes, o incluso los chatbots personalizados. Para descubrirlo, solo hay que presionar en GPT-3.5 o GPT-4 en la esquina superior izquierda de la interfaz y seleccionar GPT-4o.

https://openai.com/index/hello-gpt-4o/

Jean-Luc Lenoble
https://www.linkedin.com/in/jeanluclenoble