Reinforcement Learning Based on Risk Measures

发布时间：2022年06月19日浏览次数：127 发布者: Xiaoni Tan

打印

主讲人： Yijie Peng (Peking University)

活动时间： 从 2022-06-20 10:10 到 11:10

场地： Room 9, Quan Zhai, BICMR

经典的强化学习问题的目标是在动态环境下给出最优策略极大化累加期望回报。期望反映的是随机变量的平均值，它无法刻画随机变量的尾部分布，从而忽视了策略在极端环境下的表现。导致2008年全球金融危机的重要原因之一是对极端市场环境下的风险管理能力不足。行为经济发现人在风险下的决策过程中扭曲了客观概率，不满足期望效用理论。本研究将人的行为特征融入智能体训练，提出以风险度量为目标函数的强化学习训练方法。风险度量可以放大极端事件的客观概率，从而使得最优策略在极端环境下表现的稳健性得到大幅提升。

北京大学光华管理学院副教授，博士生导师。北京大学人工智能研究院、国家健康医疗大数据研究院兼职研究员。本科毕业于武汉大学数学与统计学院，从复旦大学管理学院获博士学位。在美国马里兰大学和乔治梅森大学分别从事过博士后与助理教授工作。主要研究方向包括仿真建模与优化、金融工程与风险管理、人工智能、健康医疗等。主持多项科研基金项目，包括国家优秀青年科学基金项目，国家青年科学基金项目，北京市青年骨干个人项目等。在《Operations Research》，《INFORMS Journal on Computing》和《IEEE Transactions on Automatic Control》等高质量期刊上发表学术论文20余篇。曾获得2019年INFORMS Outstanding Simulation Publication Award，2020年Winter Simulation Conference Best Theory Paper Finalist，2017年IEEE Robotics and Automatic Society Best Paper Award Finalist。目前担任Asia-Pacific Journal of Operational Research期刊与IEEE Control Systems Society 会议编委，中国运筹学会金融工程与金融风险管理分会常务理事，中国仿真协会人工社会专委会委员，中国人工智能协会社会计算分会理事，中国管理现代化研究会风险管理专业委员会委员，北京运筹学会副秘书长。

打印