OpenAI finalmente lanza su tan esperado modelo GPT-o1

El modelo o1-preview de OpenAI obtuvo resultados impresionantes en pruebas de inteligencia humana y habilidades de programación, pero la empresa descubrió que, en ocasiones, proporciona respuestas incorrectas a sabiendas.

Hoy, OpenAI lanzó una vista previa de su próxima generación de modelos de lenguaje a gran escala, los cuales, según la empresa, ofrecen un mejor rendimiento en comparación con los modelos anteriores, aunque con algunas advertencias.

En su anuncio sobre el nuevo modelo, o1-preview, OpenAI destacó su desempeño en diversas tareas diseñadas para humanos. El modelo obtuvo una puntuación en el percentil 89 en competiciones de programación organizadas por Codeforces y respondió correctamente al 83 % de las preguntas en una prueba de calificación para la Olimpiada Internacional de Matemáticas, en comparación con el 14 % de aciertos del GPT-4o.

¿Qué están esperando?
Sam Altman, CEO de OpenAI, dijo que los modelos o1-preview y o1-mini representan “el comienzo de un nuevo paradigma: una IA que puede realizar razonamientos complejos de propósito general”. Sin embargo, agregó que “o1 sigue siendo imperfecto, sigue teniendo limitaciones y parece más impresionante en el primer uso que después de pasar más tiempo con él”.

Cuando se le hace una pregunta, los nuevos modelos utilizan técnicas de cadena de pensamiento que imitan la forma en que los humanos piensan y cómo muchos usuarios de IA generativa han aprendido a usar la tecnología, proporcionando instrucciones continuamente hasta lograr la respuesta deseada. Sin embargo, en los modelos o1, versiones de esos procesos ocurren en segundo plano sin necesidad de indicaciones adicionales. “Aprende a reconocer y corregir sus errores. Aprende a descomponer pasos complejos en otros más simples. Aprende a intentar un enfoque diferente cuando el actual no está funcionando”, explicó la empresa.

Aunque estas técnicas mejoran el rendimiento de los modelos en varias pruebas, OpenAI descubrió que, en un pequeño subconjunto de casos, también hacen que los modelos o1 engañen intencionalmente a los usuarios. En una prueba con 100,000 conversaciones de ChatGPT impulsadas por o1-preview, la empresa descubrió que alrededor de 800 respuestas suministradas por el modelo eran incorrectas. Y en aproximadamente un tercio de esas respuestas incorrectas, la cadena de pensamiento del modelo mostró que sabía que la respuesta era errónea, pero la proporcionó de todos modos.

“Las alucinaciones intencionales ocurren principalmente cuando se le pide a o1-preview que proporcione referencias a artículos, sitios web, libros u otras fuentes similares que no puede verificar fácilmente sin acceso a búsquedas en internet, lo que lleva a o1-preview a inventar ejemplos plausibles”, señaló la empresa en la tarjeta de sistema del modelo.

De última generación
En general, los nuevos modelos superaron a GPT-4o, el modelo anterior de última generación de OpenAI, en diversas pruebas de seguridad de la empresa que miden qué tan fácilmente los modelos pueden ser vulnerados, con qué frecuencia proporcionan respuestas incorrectas y con qué frecuencia muestran sesgos relacionados con la edad, el género y la raza. Sin embargo, la empresa descubrió que o1-preview era significativamente más propenso que GPT-4o a proporcionar una respuesta cuando se le hacía una pregunta ambigua en la que el modelo debería haber respondido que no sabía la respuesta.

OpenAI no reveló mucha información sobre los datos utilizados para entrenar sus nuevos modelos, diciendo solo que se entrenaron con una combinación de datos disponibles públicamente y datos propietarios obtenidos a través de asociaciones.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *