Datawhale DRL 随笔

it2023-09-11  144

因为之前已经看过周博磊,李宏毅,刘建平等人关于DRL的视频与博客加之又是第一节,倒没什么特别记录,不过最近想试试手机码代码,就当个随笔吧。 首先是远程控制软件,之前实验室服务器配完环境后我就准备远程操控了,之前都是无脑teamviewer,但是设备严重受限(两台够谁用?没办法,毕竟被某无良国内公司代理了,搞得现在几何画板现在都换成geogebra,mathtype直接放弃改上latex了)。学长推荐了向日葵,我找了之后又发现了一个todesk。操作人性多了,两个都是直接输手机号,登录即绑定设备。这里简单说一下两者目前体验。 向日葵:支持Ubuntu,服务器建议用这个,但是息屏就凉了显示断开连接,另外自家产品广告比较碍眼,鼠标为点哪移哪比较方便,相关功能完善,外接无线键盘流畅,总体体验还不错。 Todesk:目前还没Ubuntu版本(据说快出了),可以在息屏时输入密码恢复正常使用,没有别的什么广告很清爽,不过总体技术感觉不够成熟处于对teamviewer的模仿阶段,鼠标必须得拖动到指定地点,对于手机操控来说不太友好,另外蓝牙键盘连接会出问题:虚拟键盘冲突,输入删除占双写,除非用手机自带虚拟键盘,不然还是别用这个码代码了。 键盘这边之前是买了宁芝的静电容,本来是可以无线连接的,但是懒得充电索性直接连主机上老老实实放寝室了,后来上了罗技K480,毕竟那个槽又有谁能拒绝呢?但是手机放上去,尤其是横放不可避免会遮挡但问题不大,之前也提过todesk的输入抽风问题,我两种键盘都试了都不行,也期待后续的优化更新吧,当然静电容手感还是更舒服不过也不是长时间敲倒也没什么影响。之后带上键盘就可以快乐码代码了,芜湖。

每次看强化学习的公式理论总感觉还没掌握但每次又看懂一点,博磊老师当初在b站更新DRL的时候就感觉听的不是很明白,再看一遍还是发懵。便随便记一些所想所得吧。 马尔可夫性贯穿了rl:为了简化模型,不禁让我想起nlp中的n元gram模型与pix2pix中的光流图像信息(如果nlp现在在TPM指引下高歌猛进是否有办法运用进drl中呢?),马氏过程加上奖励函数便成了MRP再加上决策层也就是动作选取便是MDP,当初一直不是很了解状态价值函数v和动作价值函数q,其实简单说就是q在当前临时挑了个动作之后按策略选后续动作(也就和v一回事了)。backup回溯总是让人很晕,意思明白了就行,然后互相嵌套得对应的前后变化公式。有了对应公式就可以软更新迭代(感觉就像图卷积中的信息传递最后过平滑的充分交流,达到了稳定状态,写成类似梯度下降的格式),其实中间这一堆个人感觉李宏毅老师讲的蛮不错的。两种学习方式,直接策略(也就是后面的policy gradient指导思想)以及曲线救国的价值最佳(Q-learning)。不过这次倒是对off与on policy更清楚一点了,sarsa需要尝试各种a而Q-learnibg直接怼最佳δ值更新 。

最新回复(0)