演讲人:赵冬斌 教授 研究员
题 目:深度强化学习算法及应用
时 间:2019年5月5日上午10:00
地 点:哈工大(深圳)A507
将具有“决策”能力的强化学习(RL: Reinforcement Learning)和具有“感知”能力的深度学习(DL: Deep Learning)相结合,形成深度强化学习(DRL: Deep RL)方法,成为人工智能(AI: Artificial Intelligence)的主要方法之一。2013年,谷歌DeepMind团队提出了一类DRL方法,在视频游戏上的效果接近或超过人类游戏玩家,成果发表在2015年的《Nature》上。2016年又发表了基于DRL的围棋算法AlphaGo,以5:0战胜了欧洲围棋冠军和超一流围棋选手李世石,使围棋AI水平达到了一个前所未有的高度。2017年又提出了AlphaGo Zero,完全不用人类围棋棋谱而完胜最高水平的AlphaGo,并进一步形成通用的Alpha Zero算法,超过最顶级的国际象棋和日本将棋AI。2019年初谷歌提出了AlphaStar,以10:1战胜星际争霸游戏的职业玩家。而OpenAI也提出了基于DRL的AI,在Dota 2游戏中2:0战胜职业玩家。DRL在视频游戏、棋类博弈、自动驾驶、医疗等领域的应用日益增多。本报告将介绍强化学习、深度学习和深度强化学习算法,以及在各个领域的典型应用.
个人简介
赵冬斌,中国科学院自动化研究所,研究员、博士、博士生导师,中国科学院大学岗位教授。任IEEE计算智能学会技术发展战略委员会主席,曾任北京分会主席,自适应动态规划和强化学习技术委员会主席等。IEEE高级会员、自动化学会高级会员等。任领域顶刊IEEE TNNLS,IEEE TCyb, IEEE CIM编委等,国际期刊特邀编辑10余次,包括作为首席客座编委组织2018年IEEE TNNLS深度强化学习和自适应动态规划专刊,2019年IEEE CIM深度强化学习和游戏专刊。多次在权威国际会议上担任要职。发表论文300余篇,授权发明专利30项、国际发明专利1项。目前主要研究方向为深度强化学习、计算智能、自适应动态规划方法及在游戏、智能车、机器人、医疗、能源等领域的应用。