O aprendizado por reforço se baseia no feedback positivo ou negativo ao modelo dependendo da ação escolhida pelo mesmo. A ideia é que o modelo aprenda através das próprias experiências positivas e negativas.

Problemas comuns nessa área geralmente envolvem tomada de decisões, jogos, navegação, etc.