李学勇,欧阳柳波,李国徽.基于隐偏向信息学习的强化学习算法[J].南华大学学报(自然科学版),2004,(2):10~16.[.Reinforcement Learning Based on Hidden Biasing Information Learning[J].Journal of University of South China(Science and Technology),2004,(2):10~16.]
基于隐偏向信息学习的强化学习算法
Reinforcement Learning Based on Hidden Biasing Information Learning
  修订日期:2004-02-16
DOI:
中文关键词:  强化学习,Markov决策过程,偏向,隐偏向信息,SARSA(λ)算法
英文关键词:
基金项目:国家自然科学基金资助项目(6020317),国家科技基础性研究专项资金项目(2001DE20016-02-04).
李学勇  欧阳柳波  李国徽
长沙大学数学与信息科学系 湖南长沙410003 (李学勇)
,湖南大学软件学院 湖南长沙410082 (欧阳柳波)
,华中科技大学计算机科学与技术学院 湖北武汉430074(李国徽)
摘要点击次数: 774
全文下载次数: 3
中文摘要:
      传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.
英文摘要:
      
查看全文  查看/发表评论  下载PDF阅读器
关闭