Aprendizaje reforzado
La base de este
aprendizaje es muy parecida al aprendizaje supervisado pero la información
que proporcionamos a la red es mínima se limita a indicar si
la respuesta de la red es correcta o incorrecta.
Este tipo de aprendizaje se basa en la noción de condicionamiento
por refuerzo, esto es se aprenden las conductas reforzadas positivamente
y las conductas castigadas o reforzadas negativamente. En nuestro mundo
esto se traduce en premiar los pesos sinápticos cuando se acierta
la salida y penalizarlos cuando no se acierta.