Aprendizaje por refuerzo

También conocido como “Reinforcement Learning”, es implementado por la inteligencia artificial al momento de tomar decisiones y así su comportamiento sea de manera autónoma.

¿Cómo surge?

Se basa en el concepto psicológico de condicionamiento operante, el cual indica que es más fácil adquirir el aprendizaje seguido de una acción positiva (un premio por el aprendizaje) que por una acción negativa (un castigo). Por lo tanto, al tener un refuerzo positivo es más fácil que se replique lo aprendido.

Aplicación en la tecnología

Fuente: https://medium.com/soldai/tipos-de-aprendizaje-autom%C3%A1tico-6413e3c615e2

El objetivo del aprendizaje por refuerzo es “enseñarle” a un agente (en este caso un software) a tomar decisiones en un ambiente.

Como podemos ver en la imagen anterior, sus elementos son:

  • Agente: Software el cual se somete a entrenamiento para adquirir aprendizaje.
  • Ambiente: Escenario al que se enfrenta el agente y realiza las acciones.
  • Acción: Decisiones o movimientos que realiza el agente, estas pueden cambiar el estado del ambiente.
  • Recompensa: Como se mencionó anteriormente, es el estímulo al refuerzo positivo, con el cual se adquirirá el aprendizaje y la replicación del mismo.

¿Dónde se usa?

Algunos casos donde podemos encontrar este tipo de aprendizaje son:

  • Robots industriales: Comúnmente se le da instrucción por instrucción a las máquinas, con el aprendizaje por refuerzo, se deja que la máquina tenga la libertad de hacer intento tras intento (en un ambiente controlado) hasta obtener el resultado que buscamos, posteriormente se refuerza el aprendizaje con una recompensa y de esta manera obtiene el aprendizaje de manera autónoma.
  • Sitios web: Al abrir una página web normalmente vemos anuncios ya sea de productos que hemos buscado anteriormente o similares relacionados con búsquedas pasadas, al usar el aprendizaje por refuerzo, estos anuncios son cada vez más personalizados y predictivos, ya que nosotros como usuarios al dar clic en uno de los anuncios que nos muestra, se le recompensa al algoritmo web. Dándonos así una experiencia personalizada de navegación.

Como puedes ver, el aprendizaje por refuerzo es algo que se desarrolla día con día, perfeccionándose con cada interacción que se tiene ya sea entre algoritmos o con nuestras propias acciones. 

Si lo ves desde otro punto de vista, es algo muy similar al comportamiento humano y nuestras toma de decisiones, como bien lo mencionamos al inicio, dentro de la psicología se encuentra el estímulo por refuerzo positivo y negativo, nosotros respondemos mejor a un estímulo positivo y con base a los refuerzos positivos tomamos decisiones adecuadas, si no llegamos a nuestra meta (no tenemos recompensa) seguimos intentándolo hasta llegar a ella. 

Con estos desarrollos tecnológicos nos hemos dado cuenta que así como se veían en las películas de ciencia ficción, las máquinas son cada vez más inteligentes y podemos sacarles cada vez más provecho.

 

Fuentes:

Scroll al inicio