Nuevo Episodio - Jose Manuel Arana - El Futuro del Management -

Logotipo

VALL-E, así clonarás tu voz en 3 segundos

Comparte este post:

Hemos visto clonaciones de animales y más, pero… ¿poder clonar nuestra propia voz? Microsoft está trabajando en una nueva Inteligencia Artificial: VALL-E. Una herramienta capaz de clonar la voz de alguien a partir de un audio de 3 segundos. Te contamos más en ¡este artículo del futuro!

Según un artículo publicado por la Universidad de Cornell, los desarrolladores que presentaron a VALL-E explicaron que la herramienta está entrenada con 60.000 hrs de habla en inglés. ¿Sorprendente, no lo crees?

¿Cómo funciona VALL – E?

La IA es capaz de imitar una voz en “escenarios de tiro cero“, lo que significa que puede hacer que una voz diga palabras que nunca antes había escuchado decir.

VALL-E utiliza tecnología de texto a voz para convertir palabras escritas en palabras habladas en discursos “personalizados de alta calidad”.

Para hacer esto y realizar su muestreo, la IA usó grabaciones de más de 7.000 oradores reales de LibriLight (un conjunto de datos de audiolibros compuesto por textos de dominio público leídos por voluntarios).

Una Inteligencia Artificial que se quiere llevar más allá…

El objetivo de los investigadores es, como ellos mismos aseguran, la de aprovechar esta IA para lograr una mejor calidad en las herramientas para pasar de voz a texto, en aplicaciones como WhatsApp, por ejemplo. De lograrlo facilitaría la comunicación mediante este tipo de aplicaciones y sería posible tener un mejor acercamiento desde dispositivos móviles, con amigos, familiares y cualquier otra persona.

Así como cualquier nueva tecnología, VALL – E puede tener amenazas.

Por otro lado, también hay una advertencia ante el uso indebido de este tipo de tecnologías. Aquí te decimos algunas:

  • Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico.
  • Para mitigar tales riesgos, es posible construir un modelo de detección para observar si un clip de audio ha sido sintetizado por VALL-E«, agregan. «También pondremos en práctica los principios de IA de Microsoft cuando desarrollemos más los modelos».

A pesar de que tiene grandes cualidades, VALL-E es capaz de sintetizar muestras de voz con el ruido ambiente y con un nivel sorprendente de emoción. Desafortunadamente, de momento no se pueden obtener ejemplos en castellano.

Habrá que ver si Microsoft utiliza este modelo en alguno de sus productos o, simplemente, es otro avance más en un futuro que promete ser el despegue definitivo de la inteligencia artificial.

¿Quieres saber más sobre el futuro que nos espera? Suscríbete a nuestro canal y sigue de cerca cada uno de nuestros episodios.