By using this site, you agree to the Privacy Policy and Terms of Use.
Accept
Acontecimiento.comAcontecimiento.comAcontecimiento.com
Notificaciones
Tamaño de FuenteAa
  • Moda
  • Belleza
  • Estilo de Vida
  • Cocina
  • Salud
  • Turismo
  • Negocios y Finanzas
  • Tecnología
> Microsoft VALL-E 2: La Revolución de la IA en la Síntesis de Voz Humana
Compartir
Acontecimiento.comAcontecimiento.com
Tamaño de FuenteAa
Buscar
Síguenos en
© 2023 Acontecimiento.com | Todos los derechos reservados.

Microsoft VALL-E 2: La Revolución de la IA en la Síntesis de Voz Humana

VALL-E 2: La IA de Microsoft que reproduce la voz humana a la perfección

Por Jesús Montalvo 14/07/2024
Compartir
VALL-E 2: La IA de Microsoft que reproduce la voz humana a la perfección
COMPARTIR

Microsoft ha desarrollado una nueva inteligencia artificial (IA) generadora de voz que es tan convincente que no puede ser liberada al público. VALL-E 2, como se le llama, es un generador de texto a voz (TTS) que puede reproducir la voz de un hablante humano usando solo unos pocos segundos de audio. Los investigadores de Microsoft afirman que VALL-E 2 es capaz de generar «voz precisa y natural en la voz exacta del hablante original, comparable al rendimiento humano», según un artículo publicado el 17 de junio en el servidor de preimpresión arXiv.

Indice de Contenido
Innovación en la Síntesis de VozRepetition Aware SamplingGrouped Code ModelingEvaluación y RendimientoRiesgos Potenciales y Preocupaciones de SeguridadAplicaciones Futuras de la Tecnología de Voz AIConclusiones y Futuro de la IA en la Voz Humana

Innovación en la Síntesis de Voz

VALL-E 2 representa un avance significativo en los modelos de lenguaje de codec neuronal, alcanzando la paridad humana en la síntesis de texto a voz por primera vez. Esto significa que la voz generada por VALL-E 2 coincide o supera la calidad de la voz humana en los puntos de referencia utilizados por Microsoft. La IA es capaz de esta hazaña gracias a la inclusión de dos características clave: «Repetition Aware Sampling» y «Grouped Code Modeling».

Repetition Aware Sampling

Esta característica mejora la forma en que la IA convierte texto en voz al abordar las repeticiones de «tokens» — pequeñas unidades de lenguaje, como palabras o partes de palabras — previniendo bucles infinitos de sonidos o frases durante el proceso de decodificación. En otras palabras, esta función ayuda a variar el patrón de habla de VALL-E 2, haciéndolo sonar más fluido y natural.

Grouped Code Modeling

Esta característica mejora la eficiencia al reducir la longitud de la secuencia — o el número de tokens individuales que el modelo procesa en una sola secuencia de entrada. Esto acelera la velocidad con la que VALL-E 2 genera voz y ayuda a manejar las dificultades que vienen con el procesamiento de largas cadenas de sonidos.

Evaluación y Rendimiento

Los investigadores utilizaron muestras de audio de las bibliotecas de voz LibriSpeech y VCTK para evaluar qué tan bien VALL-E 2 coincidía con las grabaciones de hablantes humanos. También utilizaron ELLA-V — un marco de evaluación diseñado para medir la precisión y calidad del habla generada — para determinar cuán efectivamente VALL-E 2 manejaba tareas de generación de voz más complejas.

«Nuestros experimentos, realizados en los conjuntos de datos de LibriSpeech y VCTK, han demostrado que VALL-E 2 supera a los sistemas TTS de cero disparos anteriores en robustez del habla, naturalidad y similitud con el hablante», escribieron los investigadores. «Es el primero de su tipo en alcanzar la paridad humana en estos puntos de referencia.»

Riesgos Potenciales y Preocupaciones de Seguridad

A pesar de sus capacidades, Microsoft no lanzará VALL-E 2 al público debido a los posibles riesgos de mal uso. Esto coincide con la creciente preocupación por la suplantación de identidad por voz y otros usos malintencionados de la tecnología. «VALL-E 2 es puramente un proyecto de investigación. Actualmente, no tenemos planes de incorporar VALL-E 2 en un producto o expandir el acceso al público,» escribieron los investigadores en una publicación de blog. «Podría conllevar riesgos potenciales en el mal uso del modelo, como la falsificación de identificación por voz o la suplantación de un hablante específico.»

Aplicaciones Futuras de la Tecnología de Voz AI

A pesar de estos riesgos, los investigadores sugieren que la tecnología de síntesis de voz de AI podría ver aplicaciones prácticas en el futuro. «VALL-E 2 podría sintetizar voz que mantenga la identidad del hablante y podría usarse para aprendizaje educativo, entretenimiento, contenido periodístico, contenido auto-escrito, características de accesibilidad, sistemas de respuesta de voz interactiva, traducción, chatbot, etc.,» añadieron los investigadores.

Si el modelo se generaliza para hablantes no vistos en el mundo real, debería incluir un protocolo para asegurar que el hablante apruebe el uso de su voz y un modelo de detección de voz sintetizada.

Conclusiones y Futuro de la IA en la Voz Humana

Microsoft ha llegado a un punto en el que su IA puede clonar voces para que suenen perfectamente «humanas» en segundos, pero es demasiado peligrosa para hacerla pública. La subsidiaria de investigación de Microsoft ha desarrollado un generador de texto a voz que puede reproducir voces humanas con una precisión sorprendente. En un escenario llamado aprendizaje de cero disparos, VALL-E 2 está entrenado para reconocer conceptos sin necesidad de ejemplos previos de esos conceptos. Microsoft afirma que VALL-E 2 es el primero de su tipo en lograr la «paridad humana,» lo que significa que cumple o supera los estándares de similitud humana.

VALL-E 2 es el sucesor del sistema VALL-E original, anunciado en enero de 2023. Según los desarrolladores de Microsoft Research, VALL-E 2 puede «reproducir un habla precisa y natural en la voz exacta del hablante original, comparable al rendimiento humano.» Puede sintetizar tanto frases cortas como oraciones complejas. Sin embargo, el lanzamiento de esta tecnología al público general aún enfrenta desafíos significativos debido a los riesgos de seguridad y privacidad involucrados.

la IA VALL-E 2 de Microsoft marca un hito en la síntesis de voz, logrando una paridad humana sin precedentes. Aunque actualmente no está disponible para el público debido a preocupaciones de mal uso, su desarrollo abre un vasto campo de posibilidades para aplicaciones futuras en diversos sectores. La continua evolución y mejora de esta tecnología promete revolucionar la forma en que interactuamos con las máquinas, haciendo que la comunicación sea más natural y efectiva. Sin embargo, también subraya la necesidad de abordar los desafíos éticos y de seguridad asociados con el avance

You Might Also Like

Microsoft prepara una revolucionaria función para Windows 11 que detecta miradas indiscretas

El Auge de los Robots Humanoides en China: Innovación, Inversión y Competencia Global

Signal: La App de Mensajería Segura que Sacudió la Política de EE.UU.

Caída Global de Zoom en Abril de 2025: Impacto, Causas y Reacciones

Thermavault: La Nevera sin Electricidad que Revoluciona la Salud Rural

TAGS: aplicaciones de IA, aprendizaje de cero disparos, futuro de la tecnología de voz, Grouped Code Modeling, innovación tecnológica., inteligencia artificial, investigación de Microsoft, Microsoft, paridad humana, privacidad de datos, Repetition Aware Sampling, riesgos de IA, seguridad de IA, síntesis de voz, suplantación de identidad por voz, tecnología de voz, text-to-speech, TTS, VALL-E 2, voz artificial
Comparte este artículo
Facebook Twitter Copy Link
Compartir
Artículo Anterior Innovadora terapia con ondas de choque para regenerar el tejido cardíaco y mejorar la vida de los pacientes. Terapia con Ondas de Choque: Revolución en la Regeneración del Tejido Cardíaco
Artículo siguiente China lidera el camino en la revolución de la interfaz cerebro-computadora con su innovador chip neuronal. Avances en China con el Chip Neuronal que Revoluciona la Interfaz Cerebro-Computadora (BCI)

Lo más leído

Alberto Fujimori: Un Análisis Completo de su Legado Político
Alberto Fujimori: Un Análisis Completo de su Legado Político
Política 11/12/2023
“Innovación y adrenalina en los videojuegos de 2024”
2024 «Análisis de los Mejores Videojuegos»
Videojuegos 16/10/2024
"12 estrenos que redefinirán el streaming en 2025."/ EFE
Las 12 Películas de Netflix en estreno en el 2025
Cine 23/01/2025
Robótica y Entretenimiento: Nuevas Fronteras
El Futuro de los Robots Humanoides – Conferencia Mundial de Robótica de Pekín 2024
Tecnología 28/08/2024
Acontecimiento.comAcontecimiento.com
Síguenos en
© 2023 Acontecimiento.com | Todos los derechos reservados.
  • Términos y Condiciones de Uso
  • Política de Privacidad
Ir a la versión móvil
Welcome Back!

Sign in to your account

Register Lost your password?