La startup emergente Physical Intelligence no tiene ningún interés en construir robots. En cambio, el equipo tiene algo mejor en mente: alimentar el hardware con los ‘cerebros’ generalistas de software de inteligencia artificial que aprenden continuamente, de modo que las máquinas existentes puedan realizar de forma autónoma una cantidad cada vez mayor de tareas que requieren movimientos precisos y destreza, incluidas las tareas domésticas.
Durante el año pasado hemos visto perros robot bailando, incluso algunos equipados para disparar llamas, así como humanoides y máquinas cada vez más avanzadas construidas para roles especializados en líneas de montaje. Pero todavía estamos esperando a nuestra Rosey the Robot de Los Supersónicos.
Pero es posible que lleguemos allí pronto. La Inteligencia Física (Pi) de San Francisco ha revelado su modelo de IA generalista para robótica, que puede capacitar a las máquinas existentes para realizar diversas tareas, en este caso, sacar la ropa de la secadora y doblar la ropa, empaquetar delicadamente huevos en su recipiente, moler café. frijoles y mesas de ‘bussing’. No es difícil imaginar que este sistema podría ver a estos ayudantes metálicos móviles recorriendo la casa, aspirando, empacando y desempaquetando el lavavajillas, haciendo la cama, mirando en el refrigerador y la despensa para catalogar su contenido y elaborar un plan para la cena. – y, oye, por qué no, también cocinar esa cena.
Es con esta visión que Pi revela su “modelo fundamental de robot de propósito general” conocido como π0 (pi-cero).
En Physical Intelligence (π) nuestra misión es llevar la IA de propósito general al mundo físico.
Estamos emocionados de mostrar el primer paso hacia esta misión: nuestro primer modelo generalista π₀ 🧠 🤖
Papel, blog, videos sin cortes: https://t.co/XZ4Luk8Dci pic.twitter.com/XHCu1xZJdq
– Inteligencia física (@physical_int) 31 de octubre de 2024
“Creemos que este es un primer paso hacia nuestro objetivo a largo plazo de desarrollar inteligencia física artificial, de modo que los usuarios puedan simplemente pedir a los robots que realicen cualquier tarea que quieran, del mismo modo que pueden pedir grandes modelos de lenguaje (LLM) y asistentes de chatbot”. explica la empresa. “Al igual que los LLM, nuestro modelo se entrena con datos amplios y diversos y puede seguir varias instrucciones de texto. A diferencia de los LLM, abarca imágenes, texto y acciones y adquiere inteligencia física al entrenarse con la experiencia encarnada de los robots, aprendiendo a generar directamente datos de bajo nivel. Comandos de motor a través de una arquitectura novedosa. Puede controlar una variedad de robots diferentes y se le puede solicitar que realice la tarea deseada o ajustarlo para especializarlo en escenarios de aplicación desafiantes.
En su investigación, pi-zero demuestra cómo se pueden realizar una variedad de trabajos que requieren diferentes niveles de destreza y movimientos mediante hardware entrenado por la IA. En total, el modelo fundamental llevó a cabo 20 tareas, todas las cuales requirieron diferentes habilidades y manipulaciones.
“Nuestro objetivo al seleccionar estas tareas no es resolver ninguna aplicación particular, sino comenzar a proporcionar a nuestro modelo una comprensión general de las interacciones físicas, una base inicial para la inteligencia física”, señala el equipo.
π₀ es un generalista de VLA:
– realiza tareas hábiles (plegar la ropa, recoger la mesa y muchas otras)
– la adaptación de flujo y transformador combina los beneficios del preentrenamiento de VLM y los fragmentos de acción continua a 50 Hz
– está previamente entrenado en un gran conjunto de datos π que abarca muchos factores de forma pic.twitter.com/zX9hvVdQuH
– Inteligencia física (@physical_int) 31 de octubre de 2024
Ahora, soy la última persona en New Atlas que se entusiasma con la robótica, en gran parte porque la mayoría de lo que hemos visto han sido máquinas especializadas y, para ser honesto, ya me he hartado de humanoides moviendo cajas desde el punto A. a B. En biología, los especialistas saben explotar muy bien un nicho (por ejemplo, las abejas, las mariposas y los koalas) y lo hacen excepcionalmente bien. Es decir, hasta que fuerzas externas, como la pérdida de hábitat o las enfermedades, revelan sus limitaciones.
Sin embargo, los generalistas (como un mapache o un oso grizzly) pueden no ser tan buenos ocupando un nicho como otros, pero son mucho más adaptables a una gama más amplia de hábitats y fuentes de alimento. Lo que, en última instancia, los hace más adecuados para los cambios dinámicos del entorno.
De manera similar, los robots generalistas podrán hacer más que construir de manera experta una pared de ladrillos; y, capaces de aprender, podrán adaptarse a diferentes desafíos del mundo físico y tendrán un conjunto de habilidades en constante evolución.
Pi-zero utiliza un preentrenamiento del modelo de visión y lenguaje (VLM) a escala de Internet con coincidencia de flujo para sincronizar sus movimientos con sus aprendizajes de IA. Su formación previa incluyó 10.000 horas de “datos de manipulación diestra” de siete configuraciones de robot diferentes, así como 68 tareas. Esto se sumó a los conjuntos de datos de manipulación de robots existentes de OXE, DROID y Bridge.
Comparamos π₀ y π₀-small (versión que no es VLM) con varios modelos anteriores:
– Octo y OpenVLA para VLA de 0 disparos
– ACT y Política de Difusión para una sola tarea
Supera el disparo cero en las tareas vistas, el ajuste de nuevas tareas y el siguiente idioma pic.twitter.com/TUDsFjitDr
– Inteligencia física (@physical_int) 31 de octubre de 2024
“La hábil manipulación del robot requiere que pi-zero emita comandos del motor a alta frecuencia, hasta 50 veces por segundo”, señala el equipo. “Para proporcionar este nivel de destreza, desarrollamos un método novedoso para aumentar los VLM previamente entrenados con resultados de acción continua mediante coincidencia de flujo, una variante de los modelos de difusión. A partir de diversos datos de robots y un VLM previamente entrenado con datos a escala de Internet, Entrenamos nuestro modelo de coincidencia de flujo de visión, lenguaje y acción, que luego podemos entrenar posteriormente con datos de robots de alta calidad para resolver una variedad de tareas posteriores.
“Hasta donde sabemos, esto representa la mayor mezcla de preentrenamiento jamás utilizada para un modelo de manipulación de robots”, señalaron los investigadores en su estudio.
Si bien la empresa aún se encuentra en sus inicios de investigación y desarrollo, el cofundador y director ejecutivo de Pi, Karol Hausman, un científico que anteriormente trabajó en robótica en Google, cree que su modelo fundamental superará los obstáculos existentes en el campo de la generalización, incluida la cantidad de tiempo y costo involucrados en entrenar el hardware en datos del mundo físico para aprender nuevas tareas. El equipo de Pi también incluye al cofundador Sergey Levine, pionero en el desarrollo de la robótica en la Universidad de Stanford, y a Brian Ichter, ex científico investigador de Google.
En 2023, el satírico y arquitecto Karl Sharro se volvió viral con su tweet: “Que los humanos hagan trabajos duros con un salario mínimo mientras los robots escriben poesía y pintan no es el futuro que quería”. El mismo año, Hollywood se paralizó cuando los miembros del Writers Guild of America se declararon en huelga, al ver el sombrío camino que les esperaba a los creativos frente a esta nueva era de la tecnología.
Y si bien es posible que la IA todavía esté llegando (y ya ha llegado) a muchos de nuestros trabajos (no hace falta que nos lo recuerden a los periodistas), la visión de Pi parece más acorde con la de los futuristas de mediados del siglo XX, que vieron un mundo en el que las máquinas nos hicieran la vida más fácil. Llámame ingenuo, tal vez, pero si viene un robot a hacer mis tareas domésticas, podrá hacerlo.
Puede ver más videos de los ejercicios por los que el equipo realizó los robots pi-zero en la publicación del blog de Pi, pero aquí hay uno que demuestra su impresionante (y delicado) trabajo.
Clasificar huevos procesados
El trabajo de investigación sobre el desarrollo y la formación de pi-zero se puede encontrar aquí.
Fuente: Inteligencia Física