¿Crees que la IA puede programarse por sí misma en un par de años?

Llegamos a punto de avances tecnológicos en donde nos hemos dado cuenta que varias empresas han creado sus propias IA para satisfacer sus necesidades, pero ¿Crees que estas pueden programarse así mismas en un par de años?

“Un sistema de IA aprende por sí solo a reconocer el sentimiento”

Según los científicos de OpenAI, se vieron sorprendidos al descubrir que una red neuronal que había sido entrenada únicamente para predecir un carácter de textos de reseñas de Amazon, había aprendido por sí sola, también a analizar el sentimiento.

Además de que necesitó de pocos ejemplos que los otros sistemas supervisados para completar su propio aprendizaje, y, posteriormente, en las pruebas de clasificación del sentimiento realizadas, la IA obtuvo mejores resultados que estos.

Dando como consecuencia, que fue capaz de crear textos con el sentimiento deseado.

Dado esto, los científicos de OpenAI, la cual es una Organización de Investigación en Inteligencia Artificial (IA) sin ánimo de lucro que cuenta con grandes inversores, tales como Elon Musk o Peter Thiel, dieron a conocer su gran hallazgo, el 6 de abril de 2017, todo esto a través de un tweet con un enlace a una explicación más amplia en su blog.

Pero, sin embargo, para poder entender la gran relevancia de este hallazgo, es necesario entender dos conceptos relacionados con el aprendizaje automático; aprendizaje supervisado y no supervisado.

hot sale domestika — Ve la oferta aquí y recuerda que tienes el 10% Extra con el código: FACIALIX-10

Aprendizaje Automático Supervisado Y No Supervisado

El aprendizaje automático (machine learning o ML, en inglés) es la rama de la inteligencia artificial que se encarga de desarrollar técnicas que permitan a las computadoras “aprender”, es decir, conseguir que puedan responder o reaccionar ante una situación o estímulo de manera completamente autónoma sin necesidad de programar su respuesta o reacción previamente.

El proceso de aprendizaje puede ser supervisado o no supervisado. El primero es el más habitual.

Aprendizaje Supervisado

Sin entrar en tipos de algoritmos y otros detalles matemáticos, una de las principales diferencias entre ambos es que en el aprendizaje supervisado se entrena al modelo con un conjunto de datos etiquetados, mientras que en el no supervisado se utiliza un conjunto de datos no etiquetados y posteriormente, se le proporcionan solo algunos ejemplos etiquetados.

Pero… ¿Qué es esto de datos etiquetados y no etiquetados?

El mejor modo de entenderlo es con un ejemplo: imaginemos que queremos entrenar a un modelo de IA para ser capaz de clasificar cuáles de los correos electrónicos entrantes son spam y cuáles no.

Un ejemplo de aprendizaje supervisado sería entrenar al modelo de IA con un corpus de correos electrónicos etiquetados como “spam” o “no spam”.

Al analizar dicho corpus el modelo podría extraer una serie de patrones determinantes a la hora de clasificar un correo como “spam”, como que provenga de una determinada IP, que contenga ciertas palabras, etc.

Esto le permitiría, posteriormente, predecir si un correo es spam o no.

En resumen, se proporciona al modelo un conjunto determinado de datos, formado por múltiples ejemplos de datos de entrada y los resultados deseados para cada uno de ellos.

Tras analizar todos estos casos de ejemplo, el modelo de IA debe ser capaz de generalizar, extrapolando lo aprendido a nuevos casos no incluidos en los ejemplos.

El principal inconveniente de este procedimiento de aprendizaje es la necesidad de disponer de datos etiquetados. Reunir grandes volúmenes de datos es relativamente sencillo hoy en día, pero etiquetar todos esos datos, a menudo es una ardua tarea que requiere mucho tiempo y trabajo.

Aprendizaje No Supervisado

En el aprendizaje no supervisado, en cambio, se entrena al modelo con datos no etiquetados y este debe ser capaz de extraer a partir de ellos una buena representación que le permita, posteriormente, ser capaz de resolver las tareas asignadas utilizando sólo unos pocos ejemplos etiquetados.

Lograr esto es el sueño de todo científico de ML y es precisamente lo que los científicos de OpenAI anunciaron haber logrado.

Procedimiento Seguido Por Los Investigadores

El objetivo primordial de la investigación era predecir el siguiente carácter de textos de reseñas de Amazon. Para ello, los investigadores utilizaron un sistema de IA con una novedosa arquitectura de red neuronal recurrente (también llamada RNN) hibrida con una memoria de largo y conto plazo multiplicativa (mLSTM)

Además utilizando 4 GPU’s pascal de Nvidia, lo entrenaron con 4,096 unidades, las cuales fueron extraídas de un corpus de 82 millones de reseñas de Amazon.

Para ello el entrenamiento no supervisado tenía el trabajo de únicamente predecir el siguiente carácter en un fragmento de texto, por lo que las 4,096 unidades no eran más que un vector de valores a punto flotante (float) que representaba las cadenas leídas por el modelo.

Todo este entrenamiento duró aproximadamente un mes, en donde se procesaron unos 12,500 caracteres por segundo.

Después de entrenar la mLSTM, los investigadores transformaron el modelo de un clasificador de sentimientos tomando una combinación lineal de estas unidades y utilizando como pesos de la combinación aprendidos a partir de los datos supervisados disponibles.

Pero justo al entrenar el modelo lineal, observaron que utilizaba una gran y sorprendente cifra baja de las unidades aprendidas.

Entonces se pusieron a la tarea de profundizar más en ello, y se dieron cuenta de que en realidad, se había desarrollado una “Neurona del Sentimiento” capaz de predecir el valor del sentimiento con elevada precisión.

En definitiva, sorprendentemente, el modelo adquirió una cualidad interpretable, el concepto del sentimiento.

“La neurona del sentimiento de nuestro modelo puede clasificar las reseñar como positivas o negativas, incluso a pesar de que el modelo solo ha sido entrenado para predecir el siguiente carácter en el texto”
señalan los científicos en el blog de OpenAI.

Resultados Punteros En Análisis Del Sentimiento

El modelo de OpenAI, no solo necesito muchos menos ejemplos etiquetados para completar su aprendizaje en diferencia de los otros modelos de investigaciones previas, sino que además, en las pruebas de clasificación del sentimiento realizadas posteriormente, obtuvo mejores resultados que estos.

Dado lo anterior, los investigadores comprobaron la capacidad de análisis del sentimiento de su sistema con el Stanford Sentiment Treebank, el cual es un conjunto de análisis del sentimiento pequeño, pero ampliamente estudiado, y esto les dio como resultado una precisión del 91.8% superior a la mejor obtenidas hasta esa fecha por otros sistemas supervisados, la cual era de 90.2%.

En la anterior gráfica se puede observar también cómo las dos versiones del modelo de OpenAI (líneas verde y azul) necesitaron muchos menos datos etiquetados para aprender que los modelos de otros investigaciones previas.

Implicaciones De Este Hallazgo Para La Evolución Del Aprendizaje Automático

Lo que podría ser un caso determinante para la evolución del aprendizaje automático y, consecuentemente, también para la de la Inteligencia Artificial, es que los investigadores creen firmemente que este fenómeno no es específico de su modelo, sino que se trata de una propiedad general de ciertas redes neuronales de un gran tamaño, las cuales ha sido entrenadas para predecir el siguiente paso o dimensión en los datos proporcionados como entrada.

En este sentido, estos resultados suponen un enorme y prometedor paso hacia el desarrollo de un procesamiento de aprendizaje no supervisado general.

Esto nos lleva a un ejemplo, según los investigadores, entrenar una gran neuronal para predecir un fotograma en una gran colección de videos podría dar lugar a representaciones no supervisadas para clasificadores de objetos escenas y acciones.

Pero claro, todavía quedan muchos aspectos para resolver.

Por una parte, la precisión en la clasificación empeora a medida que los textos proporcionados como entrada se alejan de las características bases de una reseña.

Si seguimos ese rumbo, los investigadores señalan que sería mejor y conveniente comprobar si al ampliar el corpus con nuevas muestras de texto, el modelo sería capaz de elaborar una representación igual de informativa y aplicable a dominios más amplios.

¿Conclusiones?

En términos generales, y de cara al futuro, los investigadores señalan que es muy importante que se comprendan de una buena manera las propiedades que tienen los modelos, así como los regímenes de entrenamiento y los conjuntos de datos que llevan de una manera fiable a tantas excelentes representaciones.