Las IA tienen un gran problema con la verdad y la corrección, y el pensamiento humano parece ser una gran parte de ese problema. Una nueva generación de IA está empezando a adoptar un enfoque mucho más experimental que podría catapultar el aprendizaje automático mucho más allá de los humanos.
¿Recuerdas AlphaGo de Deepmind? Representó un avance fundamental en el desarrollo de la IA, porque fue una de las primeras IA para juegos que no requirió instrucción humana ni leyó reglas.
En cambio, utilizó una técnica llamada aprendizaje por refuerzo (RL) por autojuego para desarrollar su propia comprensión del juego. Puro ensayo y error a través de millones, incluso miles de millones de juegos virtuales, comenzando más o menos aleatoriamente tirando de cualquier palanca disponible e intentando aprender de los resultados.
Dos años después del inicio del proyecto en 2014, AlphaGo había vencido al campeón europeo de Go 5-0 y, en 2017, había derrotado al jugador humano número uno del mundo.
AlphaGo derrotó rotundamente al maestro Lee Sedol, muchas veces campeón mundial de Go, en 2016, usando movimientos extraños que serían increíblemente raros en un oponente humano y, de hecho, eso evolucionó la comprensión humana del juego.
mente profunda
En este punto, Deepmind desató un modelo AlphaZero similar en el mundo del ajedrez, donde modelos como Deep Blue, entrenados en el pensamiento, el conocimiento y los conjuntos de reglas humanos, habían estado venciendo a los grandes maestros humanos desde los años 90. AlphaZero jugó 100 partidos contra el actual campeón de IA, Stockfish, ganando 28 y empatando el resto.
El pensamiento humano frena la IA
Deepmind empezó a dominar estos juegos (y shoji, Dota 2, Starcraft II y muchos otros) cuando descartó la idea de que emular a un humano era la mejor manera de obtener un buen resultado.
Limitadas por límites diferentes a los nuestros y dotadas de talentos diferentes, estas mentes electrónicas tuvieron la libertad de interactuar con las cosas en sus propios términos, aprovechar sus propias fortalezas cognitivas y construir su propia comprensión básica de lo que funciona y lo que no. ‘t.
AlphaZero no sabe ajedrez como Magnus Carlssen. Nunca se ha oído hablar del Gambito de Dama ni se ha estudiado a los grandes grandes maestros. Simplemente ha jugado un montón de ajedrez y ha desarrollado su propia comprensión frente a la fría y dura lógica de las victorias y las derrotas, en un lenguaje inhumano e inescrutable que se creó a medida que avanzaba.
Se puede decir que la RL se realiza correctamente cuando los modelos dejan de hablar inglés en su cadena de pensamiento.
– Andrej Karpathy (@karpathy) 16 de septiembre de 2024
Como resultado, es mucho mejor que cualquier modelo entrenado por humanos, por lo que es una certeza absoluta: ningún humano y ningún modelo entrenado con el pensamiento humano volverá a tener una oportunidad en un juego de ajedrez si hay un agente avanzado de aprendizaje por refuerzo en el otro. lado.
Y algo similar, según personas que están en mejor posición que nadie para saber la verdad en el planeta, es lo que acaba de empezar a suceder con la última y mejor versión de ChatGPT.
El nuevo modelo o1 de OpenAI comienza a alejarse del pensamiento humano
ChatGPT y otras IA de modelos de lenguaje grande (LLM), como las primeras IA de ajedrez, han sido entrenadas con todo el conocimiento humano disponible: toda la producción escrita de nuestra especie, más o menos.
Y se han vuelto muy, muy buenos. Toda esta palabrería sobre si alguna vez lograrán la Inteligencia General Artificial… Dios mío, ¿te imaginas a un humano que podría competir con GPT-4o en toda la amplitud de sus capacidades?
Pero los LLM se especializan en lenguaje, no en acertar o equivocar los hechos. Es por eso que “alucinan” (o tonterías) brindándote información incorrecta en oraciones bellamente redactadas, que suenan tan seguras como un presentador de noticias.
El lenguaje es una colección de extrañas áreas grises donde rara vez hay una respuesta que sea 100% correcta o incorrecta, por lo que los LLM generalmente se capacitan mediante aprendizaje reforzado con retroalimentación humana. Es decir, los humanos eligen qué respuestas suenan más cercanas al tipo de respuesta que querían. Pero los hechos, los exámenes y la codificación tienen una clara condición de éxito/fracaso; O lo hiciste bien o no.
Y aquí es donde el nuevo modelo o1 ha comenzado a separarse del pensamiento humano y a incorporar ese increíblemente efectivo enfoque AlphaGo de puro ensayo y error en busca del resultado correcto.
El bebé de o1 da un paso hacia el aprendizaje por refuerzo
En muchos sentidos, o1 es prácticamente igual que sus predecesores, excepto que OpenAI ha incorporado algo de “tiempo para pensar” antes de comenzar a responder una pregunta. Durante este tiempo de pensamiento, o1 genera una “cadena de pensamiento” en la que considera y razona su solución a un problema.
Y aquí es donde entra en juego el enfoque RL: a o1, a diferencia de los modelos anteriores que se parecían más a los sistemas de autocompletar más avanzados del mundo, realmente le “importa” si hace las cosas bien o mal. Y a través de parte de su entrenamiento, a este modelo se le dio la libertad de abordar los problemas con un enfoque aleatorio de prueba y error en su cadena de razonamiento de pensamiento.
Todavía solo tenía pasos de razonamiento generados por humanos para seguir, pero era libre de aplicarlos aleatoriamente y sacar sus propias conclusiones sobre qué pasos, en qué orden, tenían más probabilidades de conducirlo a una respuesta correcta.
Y en ese sentido, es el primer LLM que realmente está comenzando a crear esa extraña pero súper efectiva “comprensión” de los espacios problemáticos al estilo AlphaGo. En los ámbitos en los que ahora está superando las capacidades y conocimientos de nivel doctoral, llegó allí esencialmente mediante prueba y error, encontrando las respuestas correctas en millones de intentos autogenerados y construyendo sus propias teorías sobre lo que es un paso de razonamiento útil y lo que no lo es.
Entonces, en temas donde hay una clara respuesta correcta e incorrecta, ahora estamos comenzando a ver esta inteligencia alienígena dar los primeros pasos más allá de nosotros por sí misma. Si el mundo de los juegos es una buena analogía con la vida real, entonces amigos, sabemos hacia dónde van las cosas a partir de ahora. Es un velocista que acelerará para siempre, si tiene suficiente energía.
Pero o1 todavía está entrenado principalmente en el lenguaje humano. Eso es muy diferente de la verdad: el lenguaje es una representación cruda y de baja resolución de la realidad. Digámoslo de esta manera: puedes describirme una galleta todo el día, pero no la habré probado.
Entonces, ¿qué sucede cuando dejas de describir la verdad del mundo físico y dejas que las IA vayan a comer algunas galletas? Pronto comenzaremos a descubrirlo, porque las IA integradas en cuerpos de robots están comenzando a desarrollar su propia comprensión básica de cómo funciona el mundo físico.
El camino de la IA hacia la verdad última
Liberadas de las crudas reflexiones humanas de Newton, Einstein y Hawking, las IA encarnadas adoptarán un extraño enfoque al estilo AlphaGo para comprender el mundo. Hurgarán y pincharán en la realidad, observarán los resultados y construirán sus propias teorías en sus propios idiomas sobre lo que funciona, lo que no y por qué.
No se acercarán a la realidad como lo hacen los humanos o los animales. No utilizarán un método científico como el nuestro, ni dividirán las cosas en disciplinas como la física y la química, ni realizarán el mismo tipo de experimentos que ayudaron a los humanos a dominar los materiales, las fuerzas y las fuentes de energía que los rodean y dominar el mundo.
A las IA encarnadas que se les dé la libertad de aprender de esta manera será graciosamente extrañas. Harán las cosas más extrañas que puedas imaginar, por razones que sólo ellos conocen, y al hacerlo, crearán y descubrirán nuevos conocimientos que los humanos nunca podrían haber reunido.
Liberados de nuestro lenguaje y pensamiento, ni siquiera se darán cuenta cuando traspasen los límites de nuestro conocimiento y descubran verdades sobre el universo y nuevas tecnologías con las que los humanos no tropezarían ni en mil millones de años.
Aquí se nos concede un respiro; Esto no sucederá en cuestión de días o semanas, como ocurre con gran parte de lo que sucede en el mundo del LLM.
La realidad es el sistema de mayor resolución que conocemos y la fuente definitiva de la verdad. Pero hay muchísimo y también es tremendamente lento trabajar con él; A diferencia de la simulación, la realidad exige que operes a un ritmo dolorosamente lento de un minuto por minuto, y solo puedes usar tantos cuerpos como los que realmente hayas construido.
Por lo tanto, las IA encarnadas que intentan aprender de la realidad básica no tendrán inicialmente la enorme ventaja de velocidad de sus antepasados basados en el lenguaje. Pero seguirán siendo mucho más rápidos que la evolución, y tendrán la capacidad de compartir sus aprendizajes entre grupos cooperativos en el aprendizaje en enjambre.
Empresas como Tesla, Figure y Sanctuary AI están trabajando febrilmente para construir humanoides con un estándar que sea comercialmente útil y competitivo en costos con el trabajo humano. Una vez que lo logren, si lo logran, podrán construir suficientes robots para comenzar a trabajar en esa comprensión básica, de prueba y error, del mundo físico, a escala y a velocidad.
Sin embargo, tendrán que pagar sus gastos. Es curioso pensar en ello, pero estos humanoides podrían aprender a dominar el universo en su tiempo libre en el trabajo.
Disculpas por estos pensamientos bastante esotéricos y especulativos, pero como sigo diciendo, ¡qué momento para estar vivo!
El modelo o1 de OpenAI podría no parecer un salto cuántico hacia adelante, sentado allí con la monótona ropa textual de GPT, pareciendo simplemente otro mecanógrafo de terminal invisible. Pero realmente es un cambio radical en el desarrollo de la IA y un vistazo fugaz a exactamente cómo estas máquinas alienígenas eventualmente superarán a los humanos en todos los sentidos imaginables.
Para profundizar en cómo el aprendizaje por refuerzo supone un cambio radical en el desarrollo de la IA, recomiendo encarecidamente el vídeo a continuación, del excelente canal AI Explicado.
o1 – ¿Qué está pasando? Por qué o1 es un tercer paradigma del modelo + 10 cosas que quizás no sepas
Fuente: OpenAI / AI explicado