Microsoft ha desarrollado una nueva inteligencia artificial (IA) generadora de voz que es tan convincente que no puede ser liberada al público. VALL-E 2, como se le llama, es un generador de texto a voz (TTS) que puede reproducir la voz de un hablante humano usando solo unos pocos segundos de audio. Los investigadores de Microsoft afirman que VALL-E 2 es capaz de generar «voz precisa y natural en la voz exacta del hablante original, comparable al rendimiento humano», según un artículo publicado el 17 de junio en el servidor de preimpresión arXiv.
Innovación en la Síntesis de Voz
VALL-E 2 representa un avance significativo en los modelos de lenguaje de codec neuronal, alcanzando la paridad humana en la síntesis de texto a voz por primera vez. Esto significa que la voz generada por VALL-E 2 coincide o supera la calidad de la voz humana en los puntos de referencia utilizados por Microsoft. La IA es capaz de esta hazaña gracias a la inclusión de dos características clave: «Repetition Aware Sampling» y «Grouped Code Modeling».
Repetition Aware Sampling
Esta característica mejora la forma en que la IA convierte texto en voz al abordar las repeticiones de «tokens» — pequeñas unidades de lenguaje, como palabras o partes de palabras — previniendo bucles infinitos de sonidos o frases durante el proceso de decodificación. En otras palabras, esta función ayuda a variar el patrón de habla de VALL-E 2, haciéndolo sonar más fluido y natural.
Grouped Code Modeling
Esta característica mejora la eficiencia al reducir la longitud de la secuencia — o el número de tokens individuales que el modelo procesa en una sola secuencia de entrada. Esto acelera la velocidad con la que VALL-E 2 genera voz y ayuda a manejar las dificultades que vienen con el procesamiento de largas cadenas de sonidos.
Evaluación y Rendimiento
Los investigadores utilizaron muestras de audio de las bibliotecas de voz LibriSpeech y VCTK para evaluar qué tan bien VALL-E 2 coincidía con las grabaciones de hablantes humanos. También utilizaron ELLA-V — un marco de evaluación diseñado para medir la precisión y calidad del habla generada — para determinar cuán efectivamente VALL-E 2 manejaba tareas de generación de voz más complejas.
«Nuestros experimentos, realizados en los conjuntos de datos de LibriSpeech y VCTK, han demostrado que VALL-E 2 supera a los sistemas TTS de cero disparos anteriores en robustez del habla, naturalidad y similitud con el hablante», escribieron los investigadores. «Es el primero de su tipo en alcanzar la paridad humana en estos puntos de referencia.»
Riesgos Potenciales y Preocupaciones de Seguridad
A pesar de sus capacidades, Microsoft no lanzará VALL-E 2 al público debido a los posibles riesgos de mal uso. Esto coincide con la creciente preocupación por la suplantación de identidad por voz y otros usos malintencionados de la tecnología. «VALL-E 2 es puramente un proyecto de investigación. Actualmente, no tenemos planes de incorporar VALL-E 2 en un producto o expandir el acceso al público,» escribieron los investigadores en una publicación de blog. «Podría conllevar riesgos potenciales en el mal uso del modelo, como la falsificación de identificación por voz o la suplantación de un hablante específico.»
Aplicaciones Futuras de la Tecnología de Voz AI
A pesar de estos riesgos, los investigadores sugieren que la tecnología de síntesis de voz de AI podría ver aplicaciones prácticas en el futuro. «VALL-E 2 podría sintetizar voz que mantenga la identidad del hablante y podría usarse para aprendizaje educativo, entretenimiento, contenido periodístico, contenido auto-escrito, características de accesibilidad, sistemas de respuesta de voz interactiva, traducción, chatbot, etc.,» añadieron los investigadores.
Si el modelo se generaliza para hablantes no vistos en el mundo real, debería incluir un protocolo para asegurar que el hablante apruebe el uso de su voz y un modelo de detección de voz sintetizada.
Conclusiones y Futuro de la IA en la Voz Humana
Microsoft ha llegado a un punto en el que su IA puede clonar voces para que suenen perfectamente «humanas» en segundos, pero es demasiado peligrosa para hacerla pública. La subsidiaria de investigación de Microsoft ha desarrollado un generador de texto a voz que puede reproducir voces humanas con una precisión sorprendente. En un escenario llamado aprendizaje de cero disparos, VALL-E 2 está entrenado para reconocer conceptos sin necesidad de ejemplos previos de esos conceptos. Microsoft afirma que VALL-E 2 es el primero de su tipo en lograr la «paridad humana,» lo que significa que cumple o supera los estándares de similitud humana.
VALL-E 2 es el sucesor del sistema VALL-E original, anunciado en enero de 2023. Según los desarrolladores de Microsoft Research, VALL-E 2 puede «reproducir un habla precisa y natural en la voz exacta del hablante original, comparable al rendimiento humano.» Puede sintetizar tanto frases cortas como oraciones complejas. Sin embargo, el lanzamiento de esta tecnología al público general aún enfrenta desafíos significativos debido a los riesgos de seguridad y privacidad involucrados.
la IA VALL-E 2 de Microsoft marca un hito en la síntesis de voz, logrando una paridad humana sin precedentes. Aunque actualmente no está disponible para el público debido a preocupaciones de mal uso, su desarrollo abre un vasto campo de posibilidades para aplicaciones futuras en diversos sectores. La continua evolución y mejora de esta tecnología promete revolucionar la forma en que interactuamos con las máquinas, haciendo que la comunicación sea más natural y efectiva. Sin embargo, también subraya la necesidad de abordar los desafíos éticos y de seguridad asociados con el avance