GAE强化学习
當TD展開變長的時候,bias 下降,variance上升
GAE做了個tradeoff,把TD展開做了一個類似iterative deepening的過程,用lambda做一個幾何序列加權。
總結
- 上一篇: 遍历QListWidget 所有item
- 下一篇: linux安全-用户行为监控
當TD展開變長的時候,bias 下降,variance上升
GAE做了個tradeoff,把TD展開做了一個類似iterative deepening的過程,用lambda做一個幾何序列加權。