图书介绍

基于强化学习理论的交通控制模型研究【2025|PDF下载-Epub版本|mobi电子书|kindle百度云盘下载】

基于强化学习理论的交通控制模型研究
  • 卢守峰著 著
  • 出版社: 长沙:中南大学出版社
  • ISBN:9787548717300
  • 出版时间:2015
  • 标注页数:197页
  • 文件大小:26MB
  • 文件页数:208页
  • 主题词:交通模型-研究

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

基于强化学习理论的交通控制模型研究PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 绪论1

1.1 研究背景及意义1

1.2 国内外研究现状2

1.2.1 交通控制发展现状2

1.2.2 自适应信号控制研究现状4

1.2.3 典型的交通控制系统5

1.3 研究目的8

1.4 主要内容8

第2章 强化学习理论简介9

2.1 强化学习基本原理9

2.2 Q学习算法基本理论12

2.2.1 Q学习算法步骤13

2.2.2 期望回报函数13

2.2.3 状态—行为对的Q值函数14

2.2.4 行为选择机制15

2.2.5 Q值更新函数17

2.3 强化学习的其他算法17

2.3.1 动态规划算法17

2.3.2 蒙特卡罗算法17

2.3.3 瞬时差分学习算法18

2.3.4 SARSA学习算法19

2.3.5 Dyna学习算法20

2.3.6 AHC学习算法20

2.3.7 TD学习算法21

第3章 集成Vissim-Excel_VBA-Matlab的仿真平台26

3.1 Vissim简介26

3.2 仿真平台的集成技术30

3.2.1 Vissim与Excel_VBA接口技术30

3.2.2 Excel_VBA与Matlab接口技术34

3.2.3 Vissim、Excel_VBA与Matlab集成技术38

3.3 集成Vissim-Excel_VBA-Matlab的仿真平台构建39

3.3.1 仿真平台的构建方法39

3.3.2 集成仿真平台的工作环境设置43

3.3.3 集成仿真平台的实际应用43

3.4 本章小结44

第4章 绿灯时间优化的离线Q学习模型45

4.1 概述45

4.2 离线Q学习绿时优化模型的构建46

4.3 数值实验环境47

4.4 定周期等饱和度离线Q学习绿时优化模型48

4.4.1 定周期等饱和度离线Q学习优化48

4.4.2 定周期等饱和度优化结果在线应用50

4.5 变周期等饱和度离线Q学习绿时优化模型52

4.5.1 变周期等饱和度离线Q学习优化52

4.5.2 变周期等饱和度优化结果在线应用54

4.6 定周期延误最小离线Q学习绿时优化模型56

4.6.1 定周期延误最小离线Q学习优化56

4.6.2 定周期延误最小优化结果在线应用57

4.7 变周期延误最小离线Q学习绿时优化模型59

4.7.1 变周期延误最小离线Q学习优化59

4.7.2 变周期延误最小优化结果在线应用60

4.8 模型在线优化效果对比61

4.9 本章小结63

第5章 绿灯时间优化的在线Q学习模型64

5.1 最小化运算的Q学习算法64

5.2 状态、行为、奖赏的建模64

5.3 行为选择函数66

5.4 Q学习参数的调整与Q值初始化66

5.5 在线学习流程68

5.6 定周期两相位模型在线仿真结果及分析70

5.6.1 定周期两相位模型性能测试70

5.6.2 实际案例——猴子石大桥路况仿真分析72

5.7 定周期、变周期四相位模型在线仿真结果及分析80

5.7.1 Transyt信号配时方案81

5.7.2 定周期四相位Q学习配时方案82

5.7.3 变周期四相位Q学习配时方案83

5.7.4 两种方案与Transyt的对比85

5.7.5 到达流量变化情况下的变周期Q学习配时方案86

5.8 本章小结88

第6章 绿灯时间优化的离线TD学习模型89

6.1 基本概念89

6.2 绿灯时间等饱和度的TD学习模型90

6.2.1 定周期奖赏不分级的TD学习模型91

6.2.2 定周期奖赏分级的TD学习模型93

6.2.3 变周期奖赏不分级的TD学习模型94

6.2.4 变周期奖赏分级的TD学习模型95

6.3 算例分析97

6.3.1 交通状况设置97

6.3.2 定周期奖赏不分级的TD学习模型98

6.3.3 定周期奖赏分级的TD学习模型100

6.3.4 变周期奖赏不分级的TD学习模型102

6.3.5 变周期奖赏分级的TD学习模型103

6.4 绿灯时间等饱和度的状态模糊TD学习模型105

6.4.1 模糊理论简介105

6.4.2 隶属度函数106

6.4.3 状态模糊函数的选取107

6.4.4 定周期奖赏不分级的状态模糊TD学习模型108

6.4.5 定周期奖赏分级的状态模糊TD学习模型111

6.4.6 变周期奖赏不分级的状态模糊TD学习模型113

6.4.7 变周期奖赏分级的状态模糊TD学习模型114

6.5 本章小结115

第7章 绿灯时间优化的风险敏感强化学习模型116

7.1 风险中立控制方法116

7.2 风险敏感控制方法116

7.2.1 最坏情况控制116

7.2.2 基于指数效应函数的风险敏感控制117

7.2.3 时间差分风险敏感强化学习理论简介118

7.3 绿灯时间优化的风险避免学习模型119

7.3.1 Q值更新函数的建立119

7.3.2 状态、行为的选择120

7.3.3 奖励函数的构造120

7.3.4 行为选择机制121

7.3.5 在线学习的步骤121

7.3.6 实例分析122

7.4 绿灯时间优化的风险寻求学习模型127

7.4.1 风险寻求的概念127

7.4.2 模型的提出及构建127

7.4.3 实例分析128

7.5 本章小结132

第8章 相位差优化的离线Q学习模型133

8.1 相位差及公共周期133

8.1.1 相位差133

8.1.2 公共周期134

8.2 Maxband相位差优化方法134

8.3 离线Q学习相位差优化模型的构建136

8.4 实验环境137

8.5 基于离线Q学习的相位差优化138

8.5.1 相位差离线Q学习优化138

8.5.2 相位差优化结果在线应用139

8.6 本章小结141

第9章 预测式交通管理预案研究143

9.1 基于开源软件的OD反推算法研究143

9.1.1 DTALite软件简介143

9.1.2 DTALite中静态OD反推算法研究151

9.1.3 OD反推模型求解153

9.2 基于DYNAMEQ平台的交通管理预案研究161

9.2.1 DYNAMEQ软件概述161

9.2.2 技术路线164

9.2.3 DYNAMEQ平台中模型的建立165

9.2.4 交通管理预案及评估183

9.2.5 本章小结188

参考文献190

热门推荐