• Autor de la entrada:
  • Categoría de la entrada:Noticia
Anuncios


Microsoft presenta VALL-E, un revolucionario método de modelado de lenguaje para la síntesis de voz (TTS) que utiliza códigos de codec de audio como representaciones intermedias y puede replicar la voz de cualquier persona después de escuchar solo tres segundos de grabación de audio.

VALL-E es un modelo de lenguaje codec neuronal en el que la IA tokeniza el habla y utiliza sus algoritmos para construir formas de onda que suenan como el hablante, incluyendo el timbre y el tono emocional del hablante.

Según el artículo de investigación, VALL-E puede producir discurso personalizado de alta calidad con solo una grabación de tres segundos de un hablante oblicuo como estímulo acústico.

Lo hace sin necesidad de ingeniería estructural adicional, características acústicas pre-diseñadas o afinado fino. Apoya el aprendizaje contextual y los enfoques TTS sin necesidad de una muestra previa (zero-shot TTS).

VALL-E proporciona demostraciones de audio del modelo AI en acción. El “Speaker Prompt”, una de las muestras, es una pista auditiva de tres segundos que VALL-E debe duplicar.

Para fines comparativos, la “Ground Truth” es un extracto previamente grabado del mismo hablante utilizando una frase determinada (algo así como el “control” en el experimento).

La muestra “Baseline” representa un ejemplo típico de síntesis de texto a voz, y la muestra “VALL-E” representa la salida del modelo VALL-E.

Anuncios

Los sistemas TTS sofisticados pueden sintetizar discurso de alta calidad de un solo hablante o un grupo de hablantes.

La tecnología TTS se ha integrado en una amplia variedad de aplicaciones y dispositivos, como asistentes virtuales como Alexa de Amazon y Google Assistant, aplicaciones de navegación y plataformas de e-learning.

También se utiliza en industrias como el entretenimiento, la publicidad y el servicio al cliente para crear experiencias más atractivas y personalizadas.

Fuente.


Deja tus comentarios y sugerencias


Sobre Facialix

Facialix es un sitio web que tiene como objetivo apoyar en el aprendizaje y educación de jóvenes y grandes. Buscando y categorizando recursos educativos gratuitos de internet, de esta manera Facialix ayuda en el constante aprendizaje de todos.