Microsoft revela VALL-E, una IA capaz de imitar cualquier voz con tan solo escucharla por 3 segundos

VALL-E es la nueva inteligencia artificial de Microsoft capaz de imitar la voz de cualquier persona con tan solo escucharla por 3 segundos. | Fuente: Unsplash

por Redacción RPP

10 de Enero del 2023 9:28 AM . Actualizado el 10 de Enero del 2023 9:28 AM

El nuevo modelo de lenguaje para la síntesis de texto a voz desarrollado por Microsoft puede replicar cualquier voz con solo 3 segundos de haberla escuchado.

Microsoft está sumamente interesada en la inteligencia artificial y no solo ha optado por invertir en GPT-3 de OpenAI, la cual terminará siendo aplicada a los programas y servicios de la firma como Word y Bing, sino que además ha presentado una nueva iniciativa desarrollada por su propio equipo. La compañía ha revelado VALL-E, una herramienta capaz de imitar la voz de cualquier persona con tan solo haberla escuchado por 3 segundos.

La empresa dirigida por Satya Nadella está trabajando en sus propios modelos de inteligencias artificiales. En concreto, VALL-E es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec -códec de audio de Meta- que puede generar audios mediante una pequeña descripción en texto.

Diferenciándose de otras tecnologías similares

Si bien la propia Microsoft ya cuenta con un sistema similar llamado Text to Speech para convertir un texto en voz sintetizada, la característica que diferencia a VALL-E de su antecesor según la compañía es que puede analizar la voz de una persona para luego interpretar cómo sonaría con frases distintas mientras conserva la entonación y las emociones del hablante. Solo requiere de 3 segundos para obtener resultados sorprendentes.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior. Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60 mil horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”, dijo Microsoft en la web de la herramienta.

VALL-E es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec que puede generar audios mediante una pequeña descripción en texto.Fuente: GitHub/Microsoft

Una IA impresionante y peligrosa

Además de ser capaz de replicar la voz de cualquier persona con una excelencia de temer, la inteligencia artificial VALL-E de Microsoft también puede usarse con otros modelos de IA generativa como el ya mencionado GPT-3. A través de esta opción, los usuarios tendrán la facultad de pedirle al popular chatbot ChatGPT que imite la voz de un personaje en específico.

Con estas alternativas, Microsoft busca conseguir un sistema capaz de crear discursos de voz mediante una descripción de texto y, si bien resulta impresionante en concepto, lo cierto es que puede representar un grave riesgo si es que llega a estar disponible al público general. VALL-E podría ser utilizado para suplantar la identidad de las personas.

Microsoft señaló que “es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E”, pero esta IA podría ser el medio por el que una nueva generación de estafas aparezca en Internet.

Te recomendamos METADATA, el podcast de tecnología de RPP. Noticias, análisis, reseñas, recomendaciones y todo lo que debes saber sobre el mundo tecnológico.

Microsoft revela VALL-E, una IA capaz de imitar cualquier voz con tan solo escucharla por 3 segundos

Diferenciándose de otras tecnologías similares

Una IA impresionante y peligrosa

Tags

Últimas noticias

Asia

Hackers norcoreanos robaron 1 340 millones de dólares en criptomonedas en 2024

Whatsapp

ChatGPT llega a WhatsApp como rival de Meta AI y Copilot: ¿cómo instalarlo en tu dispositivo?

Google

Vladimir Putin acusa a Google de ser una herramienta al servicio de los Estados Unidos

Móviles

Realme presenta un celular que cambia de color con la temperatura

Whatsapp

WhatsApp permitirá mencionar a todos los miembros de un grupo a la vez: ¿cómo hacerlo?

Youtube

MrBeast tendrá acceso exclusivo a las pirámides de Egipto por 100 horas: "Quiero encontrar secretos"

Redes Sociales

Multimillonario estadounidense quiere adquirir TikTok sin comprar su algoritmo

Más Tecnología

El Salvador abandonará su billetera de Bitcoin para obtener un préstamo del FMI

Contenido promocionado

Te recomendamos

Diferenciándose de otras tecnologías similares

Una IA impresionante y peligrosa

Te recomendamos

Tags

Suscribirte al newsletter de tus noticias preferidas

Últimas noticias