Adobe VoCo, un soft que agrega y cambia palabras de cualquier voz grabada

Es considerado como el "photoshop del audio"

Dentro de las posibilidades de la edición de audio, se cuentan actualmente con herramientas equivalentes a lo que sería Photoshop para fotografías pero en términos de audio, pudiendo retocar, modificar, combinar, filtrar y procesar de muchas maneras el material de audio. Sin embargo, aún queda un largo trecho cuando se trata de procesos de resíntesis de material que sean suficientemente fieles a las muestras crudas.
La gente de Adobe, responsable de piezas populares de software como Photoshop, Illustrator y Audition, considera al proyecto Voco un “photoshop para audio”, al menos en términos de la grabación de voces, como comentó el desarrollador Zeyu Jin en la presentación (2016) del llamado proyecto VoCo, un algoritmo que presenta algunos ejemplos interesantes.
Se trata de un agregado de Adobe Audition. El software se basa en un sistema de re síntesis que permite editar y agregar palabras a un determinado discurso, pudiendo (re) sintetizar la voz registrada.
En el video se puede apreciar su funcionamiento; como en una frase donde dice “besó a sus perros y su mujer” intercambia los sustantivos desde texto, luego agrega la palabra “jordan” en vez de “mujer” y posteriormente agrega material que no incluye la grabación, “tres veces”.
Aunque en el comunicado oficial de Adobe se habla de la posibilidad de “cambiar o insertar una o varias palabras en grabaciones de doblaje, diálogo y narración” debido a errores o cambios necesarios, es claro que una tecnología de estas puede tener muchos usos, algunos de ellos quizás no muy benéficos cuando se trata de asuntos políticos, material de evidencia, entre otros, para los cuales no es de extrañar que ya existan tecnologías similares. Se menciona que ha sido más fácil lograr el algoritmo que hacer que el sistema tenga una especie de función de marca de agua de tal forma que se detecte cuando fue hecho así, en caso de que pueda caer en manos equivocadas.
Es importante destacar lo mucho que se acerca el algoritmo a la síntesis de una voz tan similar a la identificada en el discurso. Para ello, según comentan los de Adobe, es necesario tener al menos 20 minutos de grabación de una voz, de tal forma que se pueda analizar el material lo suficiente como para recrearla en otras palabras.
La idea es generar en el audio una revolución similar a la que causaron con Photoshop en términos de la fotografía. VoCo es apenas el comienzo de otras herramientas similares por lo que será cuestión de tiempo conocer lo que se traen entre manos. 

Fuente: Hispasonic
Share on Google Plus

About Audiorecord Salta

    Blogger Comment
    Facebook Comment