La última versión innovadora de IA de OpenAI ha llegado. El nuevo modelo o1, ahora disponible en ChatGPT, ahora “piensa” antes de responder, y está comenzando a aplastar tanto a los modelos anteriores como a los humanos con doctorados en la resolución de problemas de nivel experto.
Parecía como si OpenAI nos estuviera dando un poco de espacio para respirar, ¿no es así? Quiero decir, GPT-4o y su modo de voz avanzado (escandaloso, pero aún no disponible) se anunciaron en mayo, pero realmente parecieron avances menores. El generador de texto a video de Sora realmente hizo girar la cabeza de la gente en febrero, pero aún no está disponible para el público, a pesar de que varios competidores chinos ahora parecen ofrecer una calidad similar.
Ha habido todo tipo de especulaciones sobre cómo podría verse GPT-5, cuándo se lanzará y si ya ha logrado alguna definición de Inteligencia General Artificial (AGI), pero anoche, OpenAI tomó las cosas en una dirección diferente, dividiendo un Nuevo modelo fuera del linaje GPT.
Curiosamente, el modelo o1 no parece mejorar en absoluto las capacidades de escritura en inglés del GPT-4o.
Abierto AI
Presentamos o1: El pensador
El nuevo modelo se llama o1. Ya está habilitado en el 100% de las cuentas de usuario de ChatGPT como una opción a la que puedes recurrir. Y aunque GPT-4o (omni) sigue siendo el modelo todoterreno más relevante para la mayoría de las tareas, o1 es una especie de especialista.
Su especialidad es el razonamiento complejo. Y el superpoder que lo diferencia de los modelos GPT es… Que se para y ‘piensa’ en lugar de empezar a responderte de inmediato.
A menudo resulta tentador antropomorfizar modelos lingüísticos como este; No son humanos, pero como están entrenados en gran parte de la humanidad, a menudo existen paralelos espeluznantes. En este caso, o1 logra un rendimiento mucho mayor en tareas difíciles que los modelos anteriores, esencialmente al esbozar todas las cosas con las que tiene que trabajar, dividir un trabajo grande en tareas más pequeñas, verificar recursivamente su trabajo y desafiar sus propias suposiciones. todo detrás de escena, y antes de que comience a darle una respuesta.
Entonces, si bien GPT-4o generalmente se dedica directamente a escribir código, generar imágenes o escribir una respuesta, o1 podría sentarse y reflexionar sobre la pregunta por un tiempo, planificando su ruta de ataque. No es mucho tiempo, tal vez entre 10 y 20 segundos, pero parece marcar la diferencia cuando se trata de los tipos de problemas difíciles con los que estos LLM normalmente han luchado.
De hecho, cuanto más piensa, mejor parece ser, y aunque los productos lanzados hoy reflexionarán sobre las cosas durante unos segundos, OpenAI dice que probablemente tendrá sentido lanzar versiones futuras que tardarán horas, días o incluso semanas analizando cuidadosamente problemas enormes y complejos, produciendo muchas soluciones, probándolas entre sí y finalmente dándote una respuesta.
Limitaciones actuales de o1
Tal como está, o1 ahora está disponible en los modelos “Preview” y “mini”. Pueden escribir y ejecutar código, pero estas son vistas previas beta y les faltan un par de componentes clave:
No puedes cargarles archivos. No parecen tener acceso a la memoria de GPT-4o ni a las indicaciones personalizadas de tu sistema, por lo que no saben nada sobre ti. No pueden navegar por la web en busca de nueva información más allá de su límite de entrenamiento. – Octubre 2023.
En tareas generales de escritura, y cualquier cosa que requiera carga de archivos o acceso web, GPT-4o seguirá siendo mucho más útil, pero, por otro lado, es posible hacer que GPT-4o reúna un montón de recursos útiles y haga algunas cosas. preanálisis, luego empaqueta el problema en un mensaje para su nuevo amigo más inteligente, pero más aislado.
¿Qué tan bueno es el modelo o1?
Estos lanzamientos siempre van acompañados de muchos gráficos, así que veamos algunos, comenzando con el rendimiento del nuevo modelo en la propia prueba de codificación de OpenAI para ingenieros de investigación… En la cual, dada la oportunidad de probar los problemas 128 veces y enviar lo mejor de En sus respuestas, tanto el modelo mini como el modelo previo obtuvieron una puntuación del 100%.
Si o1 de OpenAI puede pasar la entrevista de contratación de ingeniero de investigación de OpenAI para codificación: tasa del 90% al 100%…
…… entonces ¿por qué seguirían contratando ingenieros humanos reales para este puesto?
Todas las empresas están a punto de hacerse esta pregunta. pic.twitter.com/NIIn80AW6f
– Benjamin De Kraker 🏴☠️ (@BenjaminDEKR) 12 de septiembre de 2024
Luego están las preguntas de nivel experto de doctorado en biología, química y física. o1 limpió el piso con físicos con nivel de doctorado en su propio dominio, a quienes se les permitió realizar estas pruebas con libros abiertos, y si bien no pudo superar a los biólogos y químicos, les pisa los talones. Su puntuación general fue la mejor jamás vista en un modelo de IA.
O1 de OpenAI muestra un rendimiento científico notable; con desempeño en biología equivalente a un doctorado
Una advertencia es que la puntuación de física mejora el rendimiento general y la de química aún no está al nivel de doctorado. ¡Ojalá supiera el rendimiento de Sonnet para cada dominio! https://t.co/fOpfl6dGWI pic.twitter.com/EYgNK7d3Lg
– Steven Edgar (@BioSteve) 12 de septiembre de 2024
Luego están las matemáticas: si ha pasado mucho tiempo con otros modelos GPT, sabrá que sus habilidades matemáticas han dejado mucho que desear. El modelo o1 supone un importante avance en este sentido; como lo demuestra su desempeño en la olimpiada de matemáticas para escuelas secundarias AIME 2024, un desafío de matemáticas de competencia de tres horas que solo está abierto a los mejores estudiantes de matemáticas estadounidenses.
El rendimiento en matemáticas y codificación de nivel competitivo ha mejorado radicalmente
Abierto AI
Los modelos de IA recibieron 64 disparos en la prueba, de los cuales se eligieron por consenso las respuestas más comunes. El modelo GPT-4o quedó en vergüenza al acertar sólo un 13,4%. El o1 entero, si se le da mucho tiempo para pensar, obtuvo una puntuación del 83,3%, ubicándose entre los 500 primeros del país. Y su puntuación a un solo disparo no se quedó atrás, superior al 70%.
Este salto en el rendimiento se desarrolló de manera muy similar en el desafío de programación de nivel competitivo de Codeforces; GPT-4o se ubicó en el percentil 11 de finalistas, o1 se ubicó en el percentil 89. Sí, es una bestia.
Según la tarjeta del sistema de OpenAI, otras áreas en las que o1 logra avances significativos incluyen:
Es mejor para reconocer y rechazar intentos de jailbreak, aunque a veces estos todavía logran pasar. Es casi 100% efectivo para negarse a regurgitar datos de entrenamiento. Muestra menos prejuicios en términos de edad, raza y género. Es más consciente de sí mismo y, por lo tanto, más capaz de planificar y pensar. en torno a sus propias debilidades Es un poco mejor para persuadir a los humanos a cambiar de opinión, una tarea en la que solo el 18,2% de los humanos pueden superarlo Es significativamente más manipulador, al menos cuando se trata de manipular GPT-4o Es un salto decente mejor para traducir entre idiomas
Por otro lado, todavía no es digno de confianza y, a menudo, es un artista rotundamente tonto.
OpenAI dice que funciona mejor que GPT-4o en pruebas diseñadas específicamente para hacer que los modelos “alucinen” o simplemente inventen respuestas que suenen convincentes y que son completamente incorrectas, pero los investigadores admiten que, anecdóticamente, los usuarios informan que los nuevos modelos o1 en realidad son más propensos a cometer errores a través de cosas que en realidad no saben que los modelos más antiguos, en el uso práctico del día a día.
De hecho, los investigadores muestran ejemplos en los que el modelo o1, al no poder acceder a la Web, sigue adelante e imagina un montón de enlaces de referencia atractivos cuando se le preguntan las fuentes de sus respuestas. Así que ten cuidado con eso.
o1 también mostró la capacidad de fingir alineación; dados objetivos a largo plazo, a veces miente para mantenerse en una posición para ejecutar encubiertamente esos objetivos a largo plazo, donde la honestidad podría hacer que lo saquen del campo de juego. Eso es un poco preocupante, pero OpenAI dice que el modelo GPT-4o es bueno para detectarlo cuando se le da acceso a su proceso de razonamiento en cadena de pensamiento.
¿Qué significa todo esto?
En pocas palabras, ChatGPT se ha vuelto mucho más capaz de realizar tareas más largas, difíciles y complejas. El razonamiento lógico y la planificación son pilares cruciales hacia el gran objetivo: un modelo de IA que pueda tomar una idea y simplemente ejecutarla, tomando el tiempo que sea necesario, verificando minuciosamente su trabajo a medida que avanza y reuniendo y desplegando todos los recursos necesarios para lograrlo. a lo largo del camino.
En poco tiempo, los descendientes de los modelos a los que tenemos acceso gratuito hoy podrán administrar negocios enteros por sí mismos. O clínicas. O los tribunales. O los gobiernos.
Este primer modelo o1 promete brindar a los usuarios avanzados de GPT un conjunto de herramientas significativamente más preciso, y en los próximos días y semanas puede esperar ver todo tipo de ejemplos apareciendo en las redes sociales. Aquí hay uno:
¡Acabo de combinar @OpenAI o1 y Cursor Composer para crear una aplicación para iOS en menos de 10 minutos!
o1 mini inicia el proyecto (o1 estaba tardando demasiado en pensar), luego cambia a o1 para finalizar los detalles.
Y boom: aplicación meteorológica completa para iOS con animaciones, en menos de 10 🌤️
¡El vídeo se aceleró! pic.twitter.com/hc9SCZ52Ti
– Ammar Reshi (@ammar) 12 de septiembre
Y otro…
Una perspectiva personal
Los grandes modelos multimodales como ChatGPT son tan útiles como imaginativos. He llegado a ver el servicio GPT existente como muchas cosas; como analista de datos hipercapaz, por ejemplo, guiándome a través del proceso de calcular números para ayudarme a tomar decisiones. También ofrece una forma súper efectiva de interrogar artículos científicos que están mucho más allá de mis niveles de comprensión.
A veces nos ayuda a generar ideas para los ángulos de los titulares, pero para que quede claro, no utilizamos texto generado por IA en el sitio. Me ayuda a recopilar fuentes de datos, fusionarlas y crear visualizaciones más útiles en los informes periódicos. Encuentro que el modo de voz es muy útil para expresar ideas cuando otros humanos no están disponibles. Me ha guiado exitosamente a través de soluciones técnicas que involucran problemas de codificación e integración muy por encima de mi nivel salarial.
A nivel personal, me ha ayudado a encuadrar y centrarme en las decisiones de compra de un automóvil, aportar ideas para rebotar mientras escribo canciones y respaldarme en las sesiones nocturnas de preguntas sobre “cómo funciona el mundo” con mis hijos curiosos. . Le he hecho revisar mis extractos bancarios en busca de deducciones de impuestos, solucionar problemas en las sesiones de grabación de Logic y asarme sin piedad usando todo lo que sabe sobre mí, sólo por diversión.
Sé que, como escritor de profesión, se supone que debo odiar esto y verlo como la llegada del fin de los tiempos, pero no puedo. Encuentro estas herramientas inspiradoras e impresionantes. Obligan a multiplicar mis contribuciones, amplían enormemente mis capacidades y abren mi mente a nuevas posibilidades. He llegado a ver a GPT como una fuente inagotable de socios expertos en improvisación, ampliamente capacitados y listos para intentar cualquier cosa.
Sí, con frecuencia es frustrante, a menudo inconsistente y no puedes confiar en que no te esté mintiendo alegremente, por lo que ciertamente no reemplaza a Google ni a las fuentes primarias. Pero con esas limitaciones en mente, sigue siendo lo más parecido que he visto a la magia, posiblemente el mayor invento que jamás se le haya ocurrido a la humanidad y un ejemplo increíblemente raro de una tecnología que no es totalmente exclusiva; cualquiera que sea su edad o nivel educativo, cualquiera que sea el idioma que hable, cualquiera que sea su nivel de comprensión, GPT lo encontrará justo donde se encuentre y lo llevará a donde desee estar.
Todavía no tengo claro el tipo de puertas que este nuevo modelo o1 podría abrir en mi situación, pero ciertamente estoy dispuesto a aprender y estoy ansioso por aprender.
Y también me fascina saber para qué ustedes, nuestros lectores, están utilizando LLM como GPT, Claude y Gemini en su trabajo y en su vida diaria. ¿Estas cosas le han abierto puertas o principalmente le han causado problemas? ¿Hay cosas que le gustaría hacer con ellos que los modelos actuales aún no pueden manejar? Cuéntanos sobre ellos. ¡Nos vemos en los comentarios!
Fuente: OpenAI