Home Técnica Las IA generan ideas de investigación más novedosas y apasionantes que los...

Las IA generan ideas de investigación más novedosas y apasionantes que los expertos humanos

5
0


Los primeros resultados estadísticamente significativos están en: las IA de Modelo de Lenguaje Grande (LLM) no solo pueden generar nuevas ideas de investigación científica a nivel de expertos, sino que sus ideas son más originales y emocionantes que las mejores de las nuestras, según lo juzgan los expertos humanos.

Los avances recientes en modelos de lenguaje grande (LLM) han entusiasmado a los investigadores sobre el potencial de revolucionar el descubrimiento científico, con modelos como ChatGPT y Claude de Anthropic que muestran una capacidad para generar y validar de forma autónoma nuevas ideas de investigación.

Esta, por supuesto, fue una de las muchas cosas que la mayoría de la gente asumió que las IA nunca podrían reemplazar a los humanos; la capacidad de generar nuevos conocimientos y realizar nuevos descubrimientos científicos, en lugar de unir conocimientos existentes a partir de sus datos de entrenamiento.

Pero al igual que ocurre con la expresión artística, la composición musical, la codificación, la comprensión del subtexto y el lenguaje corporal, y muchas otras habilidades emergentes, las IA multimodales de hoy parecen ser capaces de generar investigaciones novedosas, más novedosas en promedio que sus contrapartes humanas.

No se había realizado ninguna investigación previa en este campo hasta hace poco, cuando más de 100 expertos en investigación en procesamiento del lenguaje natural (PNL) (doctorados y postdoctorados de 36 instituciones diferentes y reconocidas) se enfrentaron cara a cara con la “ideación” generada por LLM. agentes para ver qué ideas de investigación eran más originales, emocionantes y factibles, según el juicio de expertos humanos.

En nuestro nuevo artículo: https://t.co/xjhjUC1j8J

Reclutamos a 49 investigadores expertos en PNL para escribir ideas novedosas sobre 7 temas de PNL.

Creamos un agente LLM para generar ideas de investigación sobre los mismos 7 temas.

Después de eso, reclutamos a 79 expertos para revisar ciegamente todas las ideas humanas y de LLM.

2/pic.twitter.com/GMidcFZgkQ

– CLS (@ChengleiSi) 9 de septiembre de 2024

El campo de la PNL es una rama de la inteligencia artificial que se ocupa de la comunicación entre humanos e IA, en un lenguaje que ambas partes pueden “comprender”, en términos de sintaxis básica, pero también de matices y, más recientemente, en términos de tono verbal y emocional. inflexión.

49 expertos humanos escribieron ideas sobre 7 temas de PNL, mientras que un modelo de LLM entrenado por los investigadores generó ideas sobre los mismos 7 temas. El estudio pagó 300 dólares por cada idea más un bono de 1.000 dólares a las cinco ideas humanas principales en un esfuerzo por incentivar a los humanos a producir ideas legítimas, fáciles de seguir y ejecutar.

Una vez completado, se utilizó un LLM para estandarizar los estilos de escritura de cada entrada enviada preservando al mismo tiempo el contenido original para nivelar el campo de juego, por así decirlo, manteniendo el estudio lo más ciego posible.

Cuando decimos “expertos”, en realidad nos referimos a algunas de las mejores personas en el campo.

Procedentes de 36 instituciones diferentes, nuestros participantes son en su mayoría doctores y postdoctorados.

Como métrica representativa, nuestros redactores de ideas tienen un recuento medio de citas de 125 y nuestros revisores tienen 327.

3/ pic.twitter.com/L2ihAAtJRt

– CLS (@ChengleiSi) 9 de septiembre de 2024

Luego, todas las presentaciones fueron revisadas por 79 expertos humanos reclutados y se realizó un juicio ciego de todas las ideas de investigación. El panel presentó 298 revisiones, dando a cada idea entre dos y cuatro revisiones independientes.

Y efectivamente, cuando se trata de novedad y emoción, las IA obtuvieron resultados significativamente mejores que los investigadores humanos. También obtuvieron una clasificación ligeramente inferior a la de los humanos en viabilidad y ligeramente superior en eficacia, pero ninguno de estos efectos resultó ser estadísticamente significativo.

Una mirada general a cómo los artículos humanos se comparan con las ideas generadas por LLM

Chenglei Si

El estudio también descubrió ciertas fallas, como la falta de diversidad de los LLM en la generación de ideas, así como sus limitaciones en la autoevaluación. Incluso con instrucciones explícitas de no repetirlo, el LLM rápidamente comenzaría a hacerlo. Los LLM tampoco pudieron revisar y calificar ideas con mucha coherencia y obtuvieron calificaciones bajas en acuerdo con los juicios humanos.

El estudio también reconoce que el lado humano a la hora de juzgar la “originalidad” de una idea es bastante subjetivo, incluso con un panel de expertos.

Para probar mejor la teoría de que los LLM pueden o no ser mejores en cuanto al potencial de descubrimiento científico autónomo, los investigadores reclutarán participantes más expertos. Proponen un estudio de seguimiento más completo, donde las ideas generadas tanto por la IA como por los humanos se desarrollen completamente en proyectos, lo que permitirá una exploración más profunda de su impacto en escenarios del mundo real.

Pero estos hallazgos iniciales son ciertamente aleccionadores. La humanidad se encuentra mirando a los ojos a un nuevo y extraño adversario. Los modelos de lenguaje de IA se están convirtiendo en herramientas increíblemente capaces, pero todavía son notoriamente poco confiables y propensos a lo que las compañías de IA llaman “alucinaciones” y lo que cualquiera podría llamar “tonterías”.

Pueden mover montañas de papeleo, pero ciertamente no hay lugar para “alucinaciones” en el rigor del método científico. La ciencia no puede construir sobre una base de tonterías. Ya es bastante escandaloso que, según algunas estimaciones, al menos el 10% de los trabajos de investigación estén siendo coescritos (al menos) por IA.

Por otro lado, no podemos subestimar el potencial de la IA para acelerar radicalmente el progreso en ciertas áreas, como lo demuestra el sistema GNoME de Deepmind, que en cuestión de meses acabó con cerca de 800 años de descubrimiento de materiales y escupió recetas para aproximadamente 380.000 nuevos cristales inorgánicos que podrían tener un potencial revolucionario en todo tipo de ámbitos.

Esta es la tecnología de más rápido desarrollo que la humanidad haya visto jamás; es razonable esperar que muchos de sus defectos sean reparados y pintados en los próximos años. Muchos investigadores de IA creen que nos estamos acercando a la superinteligencia general, el punto en el que las IA generalistas superarán al conocimiento experto en más o menos todos los campos.

Sin duda, es una sensación extraña ver cómo nuestro mayor invento domina rápidamente tantas de las cosas que pensábamos que nos hacían especiales, incluida la capacidad misma de generar ideas novedosas. El ingenio humano parece estar arrinconando a los humanos, como viejos dioses con brechas cada vez menores.

Aún así, en el futuro inmediato, podemos lograr el mayor progreso como simbiosis, con lo mejor de la inteligencia orgánica y artificial trabajando juntas, siempre y cuando podamos mantener nuestros objetivos alineados.

Pero si esto es una competencia, bueno, es IA: 1, humanos: 0 para esta ronda.

Fuente: Chenglei Si vía X