El modelo Depth Pro de Apple mapea imágenes 3D en 2D en una fracción de segundo

14 octubre 2024

El ala de Investigación de Aprendizaje Automático de Apple ha desarrollado un modelo de IA fundamental “para la estimación de la profundidad monocular métrica de disparo cero”. Depth Pro permite la generación a alta velocidad de mapas de profundidad 3D detallados a partir de una única imagen bidimensional.

Nuestros cerebros procesan información visual a partir de dos fuentes de imágenes: nuestros ojos. Cada uno tiene una visión ligeramente diferente del mundo, y éstas se combinan en una sola imagen estéreo, y las diferencias también nos ayudan a medir qué tan cerca o lejos están los objetos.

Muchas cámaras y teléfonos inteligentes observan la vida a través de una sola lente, pero se pueden crear mapas de profundidad tridimensionales usando información oculta en metadatos de fotografías 2D (como distancias focales e información del sensor) o estimarse usando múltiples imágenes.

Sin embargo, el sistema Depth Pro no se preocupa por todo eso, pero es capaz de generar un mapa de profundidad 3D detallado a 2,25 megapíxeles a partir de una sola imagen en 0,3 segundos a través de una unidad de procesamiento de gráficos estándar.

La arquitectura del modelo de IA incluye algo llamado transformador de visión multiescala para procesar simultáneamente el contexto general de una imagen, así como todos los detalles más finos como “pelo, pelaje y otras estructuras finas”. Y es capaz de estimar la profundidad tanto relativa como absoluta, lo que significa que el modelo puede proporcionar mediciones del mundo real para permitir, por ejemplo, que aplicaciones de realidad aumentada posicionen con precisión objetos virtuales en un espacio físico.

La IA es capaz de hacer todo esto sin necesidad de una capacitación intensiva en recursos en conjuntos de datos muy específicos, empleando algo llamado aprendizaje de disparo cero, que IBM describe como “un escenario de aprendizaje automático en el que un modelo de IA puede reconocer y categorizar clases invisibles sin ejemplos etiquetados”. “. Esto lo convierte en una bestia bastante versátil.

En cuanto a las aplicaciones, más allá del escenario AR mencionado anteriormente, Depth Pro podría permitir una edición de fotografías mucho más eficiente o incluso generar imágenes 3D en tiempo real usando una cámara de lente única, y resultar útil para ayudar a máquinas como vehículos autónomos y robots a mejorar. percibir el mundo que les rodea en tiempo real.

El proyecto aún se encuentra en la etapa de investigación, pero tal vez inusualmente para Apple, el código y la documentación de respaldo están disponibles como código abierto en GitHub, lo que permite a los desarrolladores, científicos y codificadores llevar la tecnología al siguiente nivel.

Se ha publicado un artículo sobre el proyecto en el servidor Arxiv y hay una demostración en vivo disponible para cualquiera que quiera experimentar la versión actual por sí mismo.

Fuente: manzana

El modelo Depth Pro de Apple mapea imágenes 3D en 2D en una fracción de segundo

Latest Post

La “mejor multiherramienta de todos los tiempos” de Leatherman se vuelve...

Por qué James Maddison fue sustituido en el descanso contra el...

‘Aprovechar el momento’ y asegurar un acuerdo de alto el fuego:...

Caen las donaciones a Harvard; Exalumnos cortaron lazos por protestas contra...

Manchester United vs Brentford – Partidos de la Premier League a...

Category