qqqqqq
注册 登录
EN | CN
  • 首页
  • 论文提交
  • 论文浏览
  • 论文检索
  • 个人中心
  • 帮助
按提交时间
  • 2
  • 2
按主题分类
  • 4
按作者
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
按机构
  • 1
  • 1
  • 1
  • 1
当前资源共 4条
隐藏摘要 点击量 时间 下载量
  • 1. ChinaXiv:202205.00064
    下载全文

    一种基于DQN的无人驾驶任务卸载策略

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-10 合作期刊: 《计算机应用研究》

    王锦 张新有

    摘要: 无人驾驶汽车由于其有限的电池寿命和计算能力,难以在保证续航的前提下满足一些时延敏感任务或密集任务的处理需求。为解决该问题,在移动边缘计算(mobile edge computing,MEC)的背景下,提出了一种基于深度Q网络(deep Q-network,DQN)的无人驾驶任务卸载策略。首先,定义了一个基于任务优先级的“车-边-云”协同任务卸载模型,其需要通过联合优化车辆计算能力与任务卸载策略以获取系统最小延迟和能耗。由于该问题是个混合整数非线性规划问题,因此分两步对其进行求解—通过数学推导得出了最优车辆计算能力的解析解,之后在其数值固定条件下,基于DQN算法获得了任务最佳卸载策略。最后,综合SUMO、Pytorch和Python等工具建立了仿真模型,比较了DQN算法和其他三种算法在任务负载、MEC服务器计算能力以及能耗权重系数变化情况下的性能,实验结果验证了所提策略的可行性和优越性。

    通过
     点击量 5272  下载量 653  评论 0
  • 2. ChinaXiv:202204.00039
    下载全文

    结合状态预测的深度强化学习交通信号控制

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-04-07 合作期刊: 《计算机应用研究》

    唐慕尧 周大可 李涛

    摘要: 深度强化学习(Deep Reinforcement Learning,DRL)可广泛应用于城市交通信号控制领域,但在现有研究中,绝大多数的DRL智能体仅使用当前的交通状态进行决策,在交通流变化较大的情况下控制效果有限。文中提出一种结合状态预测的DRL信号控制算法。首先,利用独热编码设计简洁且高效的交通状态;然后,使用长短期记忆网络(Long Short-Term Memory,LSTM)预测未来的交通状态;最后,智能体根据当前状态和预测状态进行最优决策。在SUMO(Simulation of Urban Mobility)仿真平台上的实验结果表明,在单交叉口、多交叉口的多种交通流量条件下,与三种典型的信号控制算法相比,所提算法在平均等待时间、行驶时间、燃油消耗、CO2排放等指标上都具有最好的性能。

    通过
     点击量 6426  下载量 811  评论 0
  • 3. ChinaXiv:201812.00127
    下载全文

    基于排序优先经验回放的竞争深度Q网络学习

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》

    周瑶瑶 李烨

    摘要: 为减少深度Q网络算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台Cart Pole和Mountain Car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真结果表明,相比于常规DQN算法、基于竞争网络结构的DQN方法和基于优先经验回放的DQN方法,该方法具有更好的学习性能,训练时间最少。同时,详细分析了算法参数对于学习性能的影响,为实际运用该方法提供了有价值的参考。

    通过
     点击量 2461  下载量 1219  评论 0
  • 4. ChinaXiv:201810.00021
    下载全文

    一种深度Q网络的改进算法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-10-11 合作期刊: 《计算机应用研究》

    夏宗涛 秦进

    摘要: 深度Q网络存在严重的过估计问题,导致智能体寻找最优策略的能力下降。为了缓解深度Q网络中存在的过估计问题,提出一个更正函数用于对深度Q网络中的评价函数进行改进,当选择的动作为最优动作时更正函数为1,不对当前状态—动作值进行修改,当选择的动作不是最优动作时更正函数小于1,缩小当前状态—动作值,从而使得最优状态—动作值与非最优状态—动作值的差异增大,减少过估计问题的影响。实验证明改进的算法在Playing Atari 2600视频游戏以及OpenAI Gym中取得了更好的性能。说明改进的算法比深度Q网络寻得了更优的策略。

    通过
     点击量 2721  下载量 1366  评论 0
友情链接 : ChinaXiv PubScholar 哲学社会科学预印本
  • 运营单位: 中国科学院文献情报中心
  • 制作维护:中国科学院文献情报中心知识系统部
  • 邮箱: eprint@mail.las.ac.cn
  • 地址:北京中关村北四环西路33号
招募预印本评审专家 许可声明 法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心