Home Técnica La IA genera imágenes precisas de las calles escuchando su banda sonora

La IA genera imágenes precisas de las calles escuchando su banda sonora

3
0


Si bien ya existen sistemas de inteligencia artificial que generan efectos de sonido para que coincidan con imágenes silenciosas de las calles de la ciudad (y otros lugares), una nueva tecnología experimental hace justo lo contrario. Genera imágenes que coinciden con grabaciones de audio de calles, con una precisión asombrosa.

Desarrollado por Asistente. El profesor Yuhao Kang y sus colegas de la Universidad de Texas en Austin, entrenaron el “modelo de difusión de paisaje sonoro a imagen” en un conjunto de datos de clips audiovisuales de 10 segundos.

Esos clips consistían en imágenes fijas y sonido ambiental tomados de vídeos de YouTube de calles urbanas y rurales de América del Norte, Asia y Europa. Utilizando algoritmos de aprendizaje profundo, el sistema aprendió no sólo qué sonidos correspondían a qué elementos dentro de las imágenes, sino también qué cualidades de sonido correspondían a qué entornos visuales.

Una vez que se completó su entrenamiento, al sistema se le asignó la tarea de generar imágenes basadas únicamente en el sonido ambiental grabado de otros 100 videos de vistas de la calle; produjo una imagen por video.

Ejemplos de algunas de las imágenes de calles generadas por IA en comparación con imágenes fijas de vídeo de las calles reales

Universidad de Texas en Austin

Posteriormente, a un panel de jueces humanos se le mostró cada una de esas imágenes junto con dos imágenes generadas de otras calles, mientras escuchaban la banda sonora del vídeo en la que se basaba la imagen. Cuando se les pidió que identificaran cuál de las tres imágenes correspondía a la banda sonora, obtuvieron un promedio de precisión del 80% al hacerlo.

Es más, cuando las imágenes generadas fueron analizadas por computadora, se encontró que sus proporciones relativas de cielo abierto, vegetación y edificios estaban “fuertemente correlacionadas” con las de los videos originales.

De hecho, en muchos casos las imágenes generadas también reflejaban las condiciones de iluminación de los vídeos originales, como cielos soleados, nublados o nocturnos. Esto puede haber sido posible gracias a factores como la disminución del ruido del tráfico nocturno o el sonido de los insectos nocturnos.

Aunque la tecnología podría tener aplicaciones forenses, como tener una idea aproximada de dónde se realizó una grabación de audio, el estudio apunta más a explorar cómo el sonido contribuye a nuestro sentido de pertenencia.

“Los resultados pueden mejorar nuestro conocimiento sobre los impactos de las percepciones visuales y auditivas en la salud mental humana, pueden guiar las prácticas de diseño urbano para la creación de lugares y pueden mejorar la calidad de vida general en las comunidades”, afirman los científicos en un artículo que fue publicado recientemente en la revista Nature.

Fuente: Universidad de Texas en Austin