太阳成集团tyc33455ccwww导师论坛
时间: 2015-11-09 发布者: 文章来源: 太阳成集团tyc33455ccwww 审核人: 浏览次数: 1144

导师简介

刘全,男,1969年10月生,教授,博士生导师。 2004年毕业于吉林大学计算机软件与理论专业,获博士学位, 南京大学软件新技术国家重点实验室博士后。近年来,共主持了“石油勘探开发分布式数据库建设”、“基于tableau的非经典逻辑经典化的自动定理证明研究”等国家级项目4项,主持了“采油工程信息可视化系统”、“油田信息处理网络系统”、“非经典逻辑 tableau研究”等省部级和市(局)级科研项目10多项,获省部级科技进步奖 2项,市(局)级科技进步奖 8项。先后在国内外学术会议及《计算机学报》、《计算机研究与发展》、《计算机科学》等国内核心期刊和统计源期刊上发表论文六十多篇,其中 10篇被SCl检索,32篇被 EI检索。目前主要研究方向为:软件系统分析与设计、分布式数据库检索及修正、网络信息安全及处理、地理信息系统、管理信息系统及决策支持系统、机器学习及自动推理等。目前部分研究被国家自然基金项目 “基于tableau的非经典逻辑经典化的自动定理证明研究”和“面向tableau模型的逻辑强化学习理论及方法研究”、教育部重点项目 “网络中不相容信息的检索及修正”、国家博士后基金项目“基于强化学习的个性化搜索引擎的研究”、江苏省博士后基金“部分感知强化学习方法研究及实现”、江苏省高校基金 “分布式数据库不相容信息处理技术研究” 等课题资助。

主讲内容:

题目:面向强化学习问题的方法

摘要:强化学习(Reinforcement Learning,RL)是在未知、动态环境中在线求解最优策略,以获取最大化期望回报的一类算法。强化学习方法的基本框架为:Agent通过试错(trial-and-error)与环境进行交互,将每一步的延迟回报(delayed reward)通过时间信用分配机制传递给过去动作序列中的某些动作,用值函数评价每个状态或状态动作对的好坏程度,最终通过值函数确定最优策略[1]。强化学习算法具有两个重要的特征:在不知道环境的全部模型时,用来求解模型未知的最优化问题;强化学习强调Agent与环境的交互,在交互过程中进行对数据的累积学习,以达到在线求解最优策略的目的[2]。因此,强化学习方法也被越来越多的用于在线学习控制,作业优化调度,游戏等领域。

    本报告从强化学习的基本概念作为出发点,由浅入深地从离散状态强化学习到大规模连续状态强化学习方法,并给出目前的应用领域及今后的发展方向。

 

 

时间:11月11日(周三)14:00-16:00

 

地点:理工楼103