marzo 28, 2024

Diario el Analísta

Mundo de las noticias en español

La IA de Microsoft puede simular la voz de cualquier persona con 3 segundos de audio

La IA de Microsoft puede simular la voz de cualquier persona con 3 segundos de audio

Hay mucho miedo sobre lo que sucederá con la inteligencia artificial (IA) en la vida cotidiana. En qué medida esta nueva tecnología cambiará al hombre y si será utilizada con fines perversos y dañinos para la humanidad. Lo cierto es que la IA a día de hoy ya sorprende. Después de ver las capacidades del programa ChatGPT, Microsoft ahora ofrece VALL-E. Es un nuevo modelo de IA de texto a voz.

Después de una plataforma capaz de producir textos similares a los humanos, viene la tecnología que permite cambiar la gestión de texto a voz para preservar el tono emocional y el entorno acústico del orador.

AI tarda tres segundos en imitar una voz humana

En un artículo publicado por Arstechnica el pasado jueves, The Investigadores de Microsoft anunciaron un nuevo modelo de IA de texto a voz llamado VALL-E Dada una muestra de audio de tres segundos, la voz de una persona se puede simular de cerca.

Una vez que se aprende una voz en particular, VALL-E puede sintetizar el audio de esa persona hablando cualquier cosa, y hacerlo de una manera que intenta preservar el tono emocional del hablante.

Sus creadores especulan VALL-E se puede utilizar para aplicaciones de texto a voz de alta calidadPuede editar y cambiar la grabación de una persona de una transcripción de texto a edición de voz (hacer que diga algo que no dijo originalmente) y crear contenido de audio junto con otros modelos generativos de IA. GPT-3.

Microsoft se refiere a esta plataforma como el "Modelo de lenguaje de códec neuronal". VALL-E se basa en una tecnología llamada Encodec Meta anunciado en octubre de 2022.

A diferencia de otros métodos de conversión de texto a voz que normalmente sintetizan el habla mediante la manipulación de formas de onda, VALL-E crea códecs de audio únicos a partir de mensajes de texto y de audio. Analiza cómo suena una persona, descompone esa información en componentes separados (llamados "chips") gracias a Encodec, y usa datos de entrenamiento para hacer coincidir lo que "sabe" sobre cómo sonaría esa voz si pronunciara oraciones distintas de tres. - Segundo modelo.

Microsoft entrena AI VALL-E con 60.000 horas de habla

Microsoft entrenó las capacidades de síntesis de voz de VALL-E en una biblioteca de audio ensamblada por Meta. Librilita.

esta base de datos El audio contiene más de 60 000 horas de habla en inglés de más de 7000 hablantes, la mayoría de los cuales provienen de los audiolibros de dominio público de LibriVox. Para que VALL-E produzca un buen resultado, la voz en la muestra de tres segundos debe coincidir estrechamente con la voz en los datos de generación.

Imagen de ejemplos VLL-E con voz lograda por inteligencia artificialSegún Ars Technica Un ejemplo es la web de VALL-E, Microsoft proporciona docenas de ejemplos de audio de modelado de IA en acción. En las muestras, el "mensaje del altavoz" es un audio de tres segundos proporcionado al VALL-E.

Una "verdad básica" es una grabación previa de que el mismo hablante pronuncia una frase particular con fines de comparación (como un "control" en un experimento).

"Baseline" es un ejemplo de síntesis proporcionada por un método convencional de síntesis de texto a voz, y el modelo "VALL-E" es el resultado del modelo VALL-E.

La curiosidad es la inteligencia y la velocidad de la tecnología de aprendizaje. Según el informe, al utilizar VALL-E para generar estos resultados, el Los investigadores solo proporcionaron una muestra de tres segundos. VALL-E tiene un "indicador de altavoz" y una cadena de texto (lo que querían que dijera la voz).

Si desea probar la prueba, compare el modelo "Ground Truth" con el modelo "VALL-E" en el sitio web del sitio. En algunos casos, los dos modelos están muy cerca. Muchos resultados de VALL-E parecen ser generados por computadora, pero curiosamente, hay muchos que pueden malinterpretarse para el habla humana prevista por el modelo.