问题:

14.强化学习方法的构成要素(或其基本构成)有哪些?分别解释各组成部分?

更新时间:2024-04-27 14:38:49

问题描述:

谷峪回答:

  1、策略:从环境感知到的状态到该状态下应该采取的行动映射;

  2、报酬函数:用来强化学习问题的目标;

  3、价值函数:与某一时刻(或状态)意义上反应行动结果好坏的报酬函数相对应,价值函数则指定了最终什么是好的;

  4、环境的模型:这是为模仿环境的举动而建立的.

最新更新

热门推荐