Esta IA es capaz de realizar un retrato de una persona solo con la voz

Han creado una IA que convierte a los fragmentos cortos del discurso de audio grabado en un rostro humana.

La IA avanza más rápido de lo que casi nadie podía imaginar hace apenas unos años. Uno de sus últimos avances es tan fascinante como inquietante: una inteligencia artificial capaz de realizar un retrato preciso de una persona usando únicamente con el sonido de la voz.

Al parecer, investigadores en el laboratorio de informática y de inteligencia artificial del MIT (CSAIL) han creado una IA que convierte a los fragmentos cortos del discurso de audio grabado en un rostro humana. Y sí, los resultados son bastante precisos.

El algoritmo, llamado Speech2face, fue creado por CSAIL en 2019. En esta demo se puede observar cómo funciona y cuáles son los resultados. En la parte superior de la página, escuchas los fragmentos de audio de diferentes personas que hablan. Su foto real es solo una referencia, y Speech2Face recreó su retrato basándose únicamente en una grabación de la voz de tres segundos.

Como explican, la IA parece estar funcionando mejor cuando los clips de audio son más largos. Los investigadores han compartido algunos ejemplos de caras recreadas de tres con seis segundos de habla. Veamos los resultados:

Por supuesto, este avance, como muchos otros con la IA como protagonista, podría chocar con la privacidad de las personas. Aunque el algoritmo fue creado solo con fines científicos, ya se ha planteado la cuestión de la privacidad. El equipo afirma que su método “no puede recuperar la verdadera identidad de una persona por su voz”, es decir, recrear una imagen exacta de su cara. Según explican:

Esto se debe a que nuestro modelo está capacitado para capturar características visuales (relacionadas con la edad, el género, etc.) que son comunes a muchas personas, y solo en los casos en que hay pruebas suficientes para conectar esas características visuales con atributos de voz / voz en los datos (consulte “Correlaciones de la cara de voz” a continuación). Como tal, el modelo solo producirá caras de aspecto promedio, con características visuales que se correlacionan con el discurso de entrada. No producirá imágenes de individuos específicos.

Sea como fuere, el avance de esta tecnología, si se mejora, traerá un profundo debate.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *