李学勇,欧阳柳波,李国徽.基于隐偏向信息学习的强化学习算法[J].南华大学学报(自然科学版),2004,(2):10~16.[.Reinforcement Learning Based on Hidden Biasing Information Learning[J].Journal of University of South China(Science and Technology),2004,(2):10~16.] |
基于隐偏向信息学习的强化学习算法 |
Reinforcement Learning Based on Hidden Biasing Information Learning |
修订日期:2004-02-16 |
DOI: |
中文关键词: 强化学习,Markov决策过程,偏向,隐偏向信息,SARSA(λ)算法 |
英文关键词: |
基金项目:国家自然科学基金资助项目(6020317),国家科技基础性研究专项资金项目(2001DE20016-02-04). |
李学勇 欧阳柳波 李国徽 |
长沙大学数学与信息科学系 湖南长沙410003
(李学勇) ,湖南大学软件学院 湖南长沙410082
(欧阳柳波) ,华中科技大学计算机科学与技术学院 湖北武汉430074(李国徽)
|
摘要点击次数: 774 |
全文下载次数: 3 |
中文摘要: |
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率. |
英文摘要: |
|
查看全文 查看/发表评论 下载PDF阅读器 |
关闭 |
|
|
|