Una de las características de la cognición humana es nuestra capacidad de aprender del mundo que nos rodea sin entrenamiento explícito. Los niños, por ejemplo, aprenden a hablar sin depender de diccionarios o pautas de pronunciación.
Como un hito importante en el trabajo para emular esta capacidad en los sistemas de inteligencia artificial, Facebook esta compartiendo un nuevo marco llamado Transformaciones de datos generalizadas.
Logra un rendimiento sin precedentes en la comprensión del contenido de los videos, sin utilizar datos de capacitación etiquetados.
Las transformaciones de datos generalizadas nos brindan una forma sistemática de aprender de manera sólida la relación entre la información de audio y visual para aprender sobre la estructura del mundo.
Esto nos permite lograr un rendimiento récord cuando ajustamos el modelo para tareas específicas posteriores. La técnica establece un nuevo estado de la técnica para el reconocimiento de acción de video, recuperación y aprendizaje de pocos disparos, y clasificación de audio.
Se utilizan redes neuronales convolucionales para codificar clips de audio e imagen en vectores de alta dimensión.
Los parámetros de los codificadores están optimizados para que las representaciones de los clips de audio y visuales co-temporales estén cerca uno del otro en el espacio vectorial.
Por el contrario, la codificación de clips de audio y visuales que no tienen nada que ver entre sí debe estar muy alejada. Los parámetros de los codificadores están optimizados para que las representaciones de los clips de audio y visuales co-temporales estén cerca uno del otro en el espacio vectorial.
Read the full paper:
https://arxiv.org/pdf/2003.04298.pdf