La IA creado por SenseTIme puede generar videos "deepfake" utilizando datos de audio

Anuncios

A fines de 2019, los investigadores de Hyperconnect, con sede en Seúl, desarrollaron una herramienta ( MarioNETte ) que podía manipular las características faciales de una figura histórica, un político o un CEO usando nada más que una cámara web e imágenes fijas.

Más recientemente, un equipo proveniente del gigante tecnológico SenseTIme con sede en Hong Kong, la Universidad Tecnológica de Nanyang y el Instituto de Automatización de la Academia de Ciencias de China propuso un método para editar imágenes de retratos de destino tomando secuencias de audio para sintetizar videos fotorrealistas.

A diferencia de MarioNETte, la técnica de SenseTime es dinámica, lo que significa que puede manejar mejor los medios que nunca antes había encontrado. Y los resultados son impresionantes, aunque preocupantes a la luz de los recientes desarrollos relacionados con las falsificaciones profundas.

Los coautores del estudio que describe el trabajo señalan que la tarea de la traducción de audio a video “muchos a muchos”, es decir, la traducción que no asume una identidad única del video fuente y el video objetivo, es un desafío. Por lo general, solo hay un escaso número de videos disponibles para entrenar un sistema de inteligencia artificial, y cualquier método tiene que hacer frente a grandes variaciones de audio y video entre los sujetos y la ausencia de conocimiento sobre geometría, materiales, iluminación y dinámica de la escena.

Para superar estos desafíos, el enfoque del equipo utiliza el espacio de parámetros de expresión, o los valores relacionados con las características faciales establecidas antes de que comience el entrenamiento, como el espacio objetivo para el mapeo de audio a video. Dicen que esto ayuda al sistema a aprender el mapeo de manera más efectiva que los píxeles completos, ya que las expresiones son más relevantes semánticamente para la fuente de audio y manipulables al generar parámetros a través de algoritmos de aprendizaje automático.

En el marco de los investigadores, los parámetros de expresión generados, combinados con los parámetros de geometría y pose de la persona objetivo, informan la reconstrucción de una malla facial tridimensional con la misma identidad y pose de cabeza que el objetivo pero con movimientos de labios que coinciden con los fonemas de audio de origen. (unidades de sonido perceptualmente distintas).

Un componente especializado mantiene la traducción de audio a expresión independiente de la identidad de la fuente de audio, haciendo que la traducción sea robusta frente a las variaciones en las voces de diferentes personas y la fuente de audio. Y el sistema extrae características, puntos de referencia, de la región de la boca de la persona para garantizar que cada movimiento se mapee con precisión, primero representándolos como mapas de calor y luego combinando los mapas de calor con cuadros en el video fuente, tomando como entrada los mapas de calor y cuadros para completar un región de la boca.

Anuncios

Los investigadores dicen que en un estudio que encargó a 100 voluntarios evaluar el realismo de 168 videoclips, la mitad de los cuales fueron sintetizados por el sistema, los videos sintetizados fueron etiquetados como “reales” el 55% del tiempo en comparación con el 70.1% del tiempo durante La verdad fundamental. Atribuyen esto a la capacidad superior de su sistema para capturar los dientes y los detalles de la textura de la cara, así como a características como las esquinas de la boca y los pliegues nasolabiales (las líneas de indentación a cada lado de la boca que se extienden desde el borde de la nariz hasta las esquinas exteriores de la boca) .

Los investigadores reconocen que su sistema podría ser mal utilizado o abusado para “diversos fines malévolos”, como la manipulación de los medios de comunicación o la “difusión de propaganda maliciosa”. Como remedios, sugieren “medidas de protección” y la promulgación y aplicación de la legislación para ordenar videos editados ser etiquetado como tal

“Al estar a la vanguardia del desarrollo de tecnologías creativas e innovadoras, nos esforzamos por desarrollar metodologías para detectar videos editados como una contramedida”, escribieron. “También alentamos al público a que sirva como centinelas para reportar cualquier video sospechoso a las [autoridades].

Conoce más en:

Trabajando en concierto, podremos promover tecnologías innovadoras y de vanguardia sin comprometer el interés personal del público en general “.

Fuente: El universal