专利名称:基于条件生成对抗网络的模型化策略搜索学习方法专利类型:发明专利
发明人:赵婷婷,孔乐,杨巨成,胡志强,任德化申请号:CN201711187411.6申请日:20171124公开号:CN107909153A公开日:20180413
摘要:本发明涉及一种基于条件生成对抗网络的模型化策略搜索学习方法,其技术特点是包括以下步骤:收集环境的真实状态转移样本;构造条件生成对抗网络模型,该条件生成对抗网络模型包括生成器与判别器;利用真实状态转移样本训练条件生成对抗网络直至收敛,最终训练得到的生成器为环境状态转移预测模型;生成数量足够多的路径样本;利用路径样本更新策略搜索强化学习算法中策略模型的参数,直到策略模型的参数更新收敛为止。本发明设计合理,当得到了环境模型的生成器后,在学习策略时不再需要额外的花费进行样本的采样,能够系统有效地解决大规模环境中复杂决策问题。
申请人:天津科技大学
地址:300222 天津市河西区大沽南路1038号天津科技大学
国籍:CN
代理机构:天津盛理知识产权代理有限公司
代理人:王利文
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容