深度强化学习玩微信跳一跳

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2777 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近学习了一下深度强化学习算法，用 CNN+DDPG 算法做了一个玩微信跳一跳的 AI

和 GitHub 上的基于 OpenCV 的方法有本质的区别，实现了端到端的自动学习

有兴趣的同学可以看一看，或者帮忙改进改进一下，目前参数调优和训练量都还不足

代码在 https://github.com/hijkzzz/wechat-jump-ddpg

第 1 条附言 · 2018 年 6 月 15 日

总之就是感觉用深度学习+强化学习机器自主学会玩这个游戏很有意思

OpenCV 测量距离的方式来做的话就感觉是人工设定规则罢了

业余恶搞哈哈

学习

算法

调优

ddpg

7 条回复 • 2018-06-16 19:47:52 +08:00

Heigum

2018 年 6 月 15 日 via Android

我跳一跳的排行榜都没人了

nine99

2018 年 6 月 15 日

好奇这个训练起来会有多慢

ynyounuo

2018 年 6 月 15 日

跳一跳距离和按压时间正相关，你这样意义不大。

hijkzzz

2018 年 6 月 15 日

@ynyounuo
输入不是距离
输入的是原始游戏图像

这个只是作死，当然用测量距离的方式更容易做
但是那种是典型的基于规则的
和 AI 就没什么太多关系了

takato

2018 年 6 月 15 日 via iPad

@hijkzzz 目前 RL 对短距离激励还是比较容易做的（比如这个 case ），长距离激励会比较麻烦点。

关于可能的改进，提个可能的方向，不一定对：CNN 会不会套得有一些深。

tsaoyu

2018 年 6 月 15 日

做的还是很有意思的。
@takato 可以继续往稀疏奖励和高维状态的方向上去做，应用方面的话机器人，能源规划以及资产管理都有一些可以继续深入的点。

takato

2018 年 6 月 16 日

@tsaoyu 稀疏奖励不好学。而且很容易学到随机特征。。不过想想也是，世界的规则就是这样，某种层面上具有非常强的随机性。。