Microsoft revela VALL-E, una IA capaz de imitar cualquier voz con tan solo escucharla por 3 segundos

VALL-E es la nueva inteligencia artificial de Microsoft capaz de imitar la voz de cualquier persona con tan solo escucharla por 3 segundos. | Fuente: Unsplash

El nuevo modelo de lenguaje para la síntesis de texto a voz desarrollado por Microsoft puede replicar cualquier voz con solo 3 segundos de haberla escuchado.

Microsoft está sumamente interesada en la inteligencia artificial y no solo ha optado por invertir en GPT-3 de OpenAI, la cual terminará siendo aplicada a los programas y servicios de la firma como Word y Bing, sino que además ha presentado una nueva iniciativa desarrollada por su propio equipo. La compañía ha revelado VALL-E, una herramienta capaz de imitar la voz de cualquier persona con tan solo haberla escuchado por 3 segundos.

La empresa dirigida por Satya Nadella está trabajando en sus propios modelos de inteligencias artificiales. En concreto, VALL-E es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec -códec de audio de Meta- que puede generar audios mediante una pequeña descripción en texto.

Te recomendamos

Diferenciándose de otras tecnologías similares

Si bien la propia Microsoft ya cuenta con un sistema similar llamado Text to Speech para convertir un texto en voz sintetizada, la característica que diferencia a VALL-E de su antecesor según la compañía es que puede analizar la voz de una persona para luego interpretar cómo sonaría con frases distintas mientras conserva la entonación y las emociones del hablante. Solo requiere de 3 segundos para obtener resultados sorprendentes.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior. Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60 mil horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”, dijo Microsoft en la web de la herramienta.

VALL-E es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec que puede generar audios mediante una pequeña descripción en texto.Fuente: GitHub/Microsoft

Una IA impresionante y peligrosa

Además de ser capaz de replicar la voz de cualquier persona con una excelencia de temer, la inteligencia artificial VALL-E de Microsoft también puede usarse con otros modelos de IA generativa como el ya mencionado GPT-3. A través de esta opción, los usuarios tendrán la facultad de pedirle al popular chatbot ChatGPT que imite la voz de un personaje en específico.

Con estas alternativas, Microsoft busca conseguir un sistema capaz de crear discursos de voz mediante una descripción de texto y, si bien resulta impresionante en concepto, lo cierto es que puede representar un grave riesgo si es que llega a estar disponible al público general. VALL-E podría ser utilizado para suplantar la identidad de las personas.

Microsoft señaló que “es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E, pero esta IA podría ser el medio por el que una nueva generación de estafas aparezca en Internet.

Te recomendamos

Te recomendamos METADATA, el podcast de tecnología de RPP. Noticias, análisis, reseñas, recomendaciones y todo lo que debes saber sobre el mundo tecnológico.

Tags

Suscribirte al newsletter de tus noticias preferidas

Suscríbete a nuestros newsletter y actualiza tus preferencias

Buzon
Al suscribirte, aceptas nuestras políticas de privacidad

Contenido promocionado

Taboola