手机知网 App
24小时专家级知识服务
打 开
自动化技术
部分可观测Markov环境下的激励学习综述
对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为基于状态的值函数学习 ;一类为策略空间的直接搜索 .最后分析了这些方法尚存在的问题 ,并指出了未来可能的研究方向 .
4 121
手机阅读本文
下载APP 手机查看本文
长沙电力学院学报(自然科学版)
2002年02期

搜 索