太阳成集团tyc33455cc(中国)股份有限公司-搜狗百科

太阳成集团tyc33455ccwww导师论坛

时间: 2015-11-09 发布者: 文章来源: 太阳成集团tyc33455ccwww 审核人: 浏览次数: 1144

导师简介：

刘全，男，1969年10月生，教授，博士生导师。 2004年毕业于吉林大学计算机软件与理论专业，获博士学位, 南京大学软件新技术国家重点实验室博士后。近年来，共主持了“石油勘探开发分布式数据库建设”、“基于tableau的非经典逻辑经典化的自动定理证明研究”等国家级项目4项，主持了“采油工程信息可视化系统”、“油田信息处理网络系统”、“非经典逻辑 tableau研究”等省部级和市（局）级科研项目10多项，获省部级科技进步奖 2项，市（局）级科技进步奖 8项。先后在国内外学术会议及《计算机学报》、《计算机研究与发展》、《计算机科学》等国内核心期刊和统计源期刊上发表论文六十多篇，其中 10篇被SCl检索，32篇被 EI检索。目前主要研究方向为：软件系统分析与设计、分布式数据库检索及修正、网络信息安全及处理、地理信息系统、管理信息系统及决策支持系统、机器学习及自动推理等。目前部分研究被国家自然基金项目 “基于tableau的非经典逻辑经典化的自动定理证明研究”和“面向tableau模型的逻辑强化学习理论及方法研究”、教育部重点项目 “网络中不相容信息的检索及修正”、国家博士后基金项目“基于强化学习的个性化搜索引擎的研究”、江苏省博士后基金“部分感知强化学习方法研究及实现”、江苏省高校基金 “分布式数据库不相容信息处理技术研究” 等课题资助。

主讲内容：

题目：面向强化学习问题的方法

摘要：强化学习（Reinforcement Learning，RL）是在未知、动态环境中在线求解最优策略，以获取最大化期望回报的一类算法。强化学习方法的基本框架为：Agent通过试错(trial-and-error)与环境进行交互，将每一步的延迟回报(delayed reward)通过时间信用分配机制传递给过去动作序列中的某些动作，用值函数评价每个状态或状态动作对的好坏程度，最终通过值函数确定最优策略[1]。强化学习算法具有两个重要的特征：在不知道环境的全部模型时，用来求解模型未知的最优化问题；强化学习强调Agent与环境的交互，在交互过程中进行对数据的累积学习，以达到在线求解最优策略的目的[2]。因此，强化学习方法也被越来越多的用于在线学习控制，作业优化调度，游戏等领域。

本报告从强化学习的基本概念作为出发点，由浅入深地从离散状态强化学习到大规模连续状态强化学习方法，并给出目前的应用领域及今后的发展方向。

时间：11月11日（周三）14：00-16：00

地点：理工楼103