一、选题背景和意义:
1.选题背景
如今,以滴滴打车为代表的网约车行业逐渐兴起。每天面对超过3000万用户的用车需求, 调控系统如何充分调配网约车资源,对高峰时间段和人流密集地段做出合理预测规划,已成为系统能够快速满足百万级以上乘客出行需求的必要条件。
传统的中心式网约车路径规划方法虽然能够从理论上保证规划效率,但是该方法一方面需要环境的先验知识,另一方面因其高复杂度,无法适用于大规模需求相应问题。强化学习 (Reinforcement Learning,简称RL),通过利用智能体自主学习策略,在复杂多变的未知环境下,可以在并不需要依赖于大量先验知识条件下,仅通过动作的执行与环境进行交互,根据环境的反馈,智能体可以逐渐适应环境。而在多智能体系统(Multi-Agent System,简称MAS)下,单个智能体求解问题的能力通常十分有限:仅通过智能体的独立学习,在全局角度下并无法达到最大收益。因此需要设定协同规划机制,多个自治的智能体按照已有知识或者通过自主学习,与其他智能体进行沟通协作,组合求解。
采用协同机制的多智能体强化学习技术在对复杂多变的环境时,具有独立的自主决策能力与面对动态变化的自适应能力,大大提高了系统的灵活性与可靠性。在大规模分布式系统控制中,如网约车调控系统、订单派发、路由流量分配等情况下,协同机制在构建多智能体系统中充当至关重要的作用。
2.选题意义
设计面向动态环境的基于多智能体强化学习的协同机制,该机制不仅适用于网约车调控系统,满足广大乘客的用车需求,同时适用于大规模群体运动场景,譬如1)机器人信息采集,其中多个机器人在未知的环境下协同采集信息(包括灾难场景下的救援任务)和2)城市规模的警察巡逻问题,其中上百个警察需要分散到城市中不同的地区,并且在不同的时间段,根据警情的分布,警察的巡逻规划需要动态的变化。
文献综述(或调研报告):
E. Durfee等人[1] 在2013年提出多智能体的顺序决策可以允许智能体在一个不确定、部分可观察的环境中运行,从而对一个长期性目标做出协调的决策。部分可观察的马尔科夫决策过程(partially observable Markov decision process,简称POMDP)可用于智能体协同规划,如多智能体巡逻、车队优化等领域。但是由于其算法复杂性问题,即使对于只有两个智能体的系统,其可拓展性仍然存在挑战。针对这类复杂性,部分模型通过增强如转移概率和观察条件的独立性来减少智能体间的交互影响。但是由于其应用范围狭窄,他们未被广泛使用。
S.Devlin[2]等人在2014年AAMAS上提出,可通过差异奖励和基于潜力的奖励塑造来改善在同一环境中运行的多智能体的联合策略。基于潜力的奖励塑造理论上已经被证明不会改变系统的最优解结果,通过利用问题领域的先验知识,该论文实验证明了使用这种方法的智能体收敛速度比只使用差异奖励的智能体快23.8倍,联合策略的收敛速度高196%。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。