欢迎访问南华大学学报（自然科学版）

快速检索			高级检索

李学勇,欧阳柳波,李国徽.基于隐偏向信息学习的强化学习算法[J].南华大学学报(自然科学版),2004,(2):10~16.[.Reinforcement Learning Based on Hidden Biasing Information Learning[J].Journal of University of South China(Science and Technology),2004,(2):10~16.]

基于隐偏向信息学习的强化学习算法

Reinforcement Learning Based on Hidden Biasing Information Learning

修订日期：2004-02-16

DOI：

中文关键词: 强化学习,Markov决策过程,偏向,隐偏向信息,SARSA(λ)算法

英文关键词:

基金项目:国家自然科学基金资助项目(6020317)，国家科技基础性研究专项资金项目(2001DE20016-02-04).

李学勇欧阳柳波李国徽

长沙大学数学与信息科学系湖南长沙410003 (李学勇)
，湖南大学软件学院湖南长沙410082 (欧阳柳波)
，华中科技大学计算机科学与技术学院湖北武汉430074(李国徽)

摘要点击次数: 828

全文下载次数: 3

中文摘要:

传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.

英文摘要:

查看全文查看/发表评论下载PDF阅读器

关闭