23号神经网络课程
反饋調(diào)節(jié)的方法
在這里沒(méi)有teacher
我們有一個(gè)agent
agent對(duì)于環(huán)境有一個(gè)observation,并且我們得到了對(duì)應(yīng)的reward
我們提供了所對(duì)應(yīng)的action來(lái)實(shí)現(xiàn)這樣的效果
我們把我們的observations和reward放到learning algorithm里面
這個(gè)learning algorithm會(huì)隨后更新agent的policy
系統(tǒng)的能量越小越好
用這個(gè)coveriance hypothesis
我們能夠有正的和負(fù)的的delta w
總結(jié)
- 上一篇: 技术的本质 2月23日摘抄
- 下一篇: 什么是formal method的inv