• 11月26日 星期二

世界冠军开讲强化学习 敢跟机器比赛学习吗?

7月以来,A股走势迷惑,月初上证指数突破3000点大关,仅九个交易日最高涨至3458.79点,涨超15%;未到中旬,大盘连续四个交易日下跌;再到本周,上证指数再次上涨3.11%。接下来走势又将如何?

答案难测,众说纷纭。股市分析信息冗繁复杂,令人有种“进了考场忽觉书到用时方恨少”的无力感。对比早在十四年前就在分析报告中指出“2020年的A股市场将出现繁荣阶段”的券商分析师,众“韭菜”的差距到底在哪里呢?这就不得不提到“对于信息与环境的感知(探索)”和“对环境信息的映射与反馈(利用)”能力。而这一点,机器在未来一定比人类能做的更多。

“不限于对错之分,只追寻利害之度”

今年年初开始入局股市的人都是勇士,事实证明,懂AI技术的人是“开了挂”的真勇士。GitHub上一名来自哈尔滨工业大学的在读博士,年初时作为股市一颗新生“白菜兼韭菜”自述忽然产生了抄底的大胆想法,一番操作后结果果然惨不忍睹。然而那时那刻,他痛定思痛,拿出了AI技术从业者新思路:如果用深度强化学习来炒股,顺便验证下收益的话怎么样?抱着在现实中用AI技术“上下而求索”的精神,他花了20天终于让机器自己炒股赚了400块。不要小看这400,优化优化再花点时间,谁知道未来会不会是4个亿呢!

那么问题来了,什么是深度强化学习?近两年,随着计算机视觉(CV)与自然语言处理(NLP)在工程与产业中不断落地,以及深度学习“三巨头”共同获得2018年度图灵奖,深度学习的概念首先开始被更多人了解认知,而强化学习与深度学习同属机器学习,亦称“增强学习”并与深度学习存在着交叉领域。其中,强化学习强调的是在一系列的情景之下选择最佳决策,即“通过多步恰当的决策来逼近一个最优的目标”,因此,它是一种“序列多步决策”问题。

世界冠军开讲强化学习 敢跟机器比赛学习吗?

(图:《强化学习7日打卡营-世界冠军带你从零实践》公开课内容)

定义看不懂不重要,只要看懂“决策”——这在诸多领域具有重要价值的二字即可。6月,百度飞桨推出《强化学习7日打卡营-世界冠军带你从零实践》入门强化学习的公开课,一经推出,课程的直播人气就飙升至B站全站学习类直播同期的Top5,课程用到的强化学习框架PARL的GitHub账户Star快速增长一倍以上,成为耀眼的千星项目;PARL随即登上GitHub全球增长趋势榜;课程更是吸引了来自美国、新加坡、德国、日本等8个海外国家华人开发者,以及宾夕法尼亚大学、佛罗里达大学、加州大学伯克利分校、南安普顿大学、早稻田等全球顶级名校学生,甚至还有不少跨学科的初学者。如此可见,对于“决策”能力的好奇与追求,不分专业领域、地域,甚至是年龄。

世界冠军开讲强化学习 敢跟机器比赛学习吗?

(图:《强化学习7日打卡营-世界冠军带你从零实践》)

“好学生是鼓励出来的”

“这次参与百度《强化学习7日打卡营》的强化学习,除了带来‘术’的增长更有思维的启发。”58岁已退休的人才管理专家及企业教练郭崇华先生凭借多年的自主学习热情与兴趣在结课后指出:“强化学习这门学科充满魅力,它有着对人类社会映射的哲思。比如其中的‘智能体’就是人类自己,我们无时无刻不在思考着自己与周边环境、与世界的关系并作出反馈。我思故我在,这是人生在‘道’层面上的意义。”从课程中收获到意想不到的价值令他欢欣鼓舞,希望继续在这个方向的坚持。“下一步我想把国外一些强化学习的好书籍翻译成中文。”郭崇华先生如是说。

前浪在学习AI中思考着人生的“道与术”,而后浪作为AI时代原住民,似乎随便翻腾一下都有大把的机会去澎湃未来。“从兴趣出发,每一次通过自己获得的小成功和进步都会让我收获巨大鼓励。”参加过百度飞桨PaddleHub竞赛,从高中就自学无人机的“后浪”郑浩旻今年刚21岁,目前还在宁波大学读大三。“现在就要开始计划未来的路应该怎么走了,自学AI方面的技能做出来一些小东西的那种自豪感无法言说,而且它本身也是超具竞争力的吃饭本事。”郑浩旻快速喜欢上了人工智能这个“能有效解决工程做出小东西”的好工具。

有收获、高价值,总能激发继续学习的强大动力,而强化学习在“自我智能的不断实现上”所遵循的逻辑与人在学习方面的哲理一脉相承。其设计灵感源于心理学中的行为主义理论:有机体如何在环境给予的奖励或惩罚刺激下,逐步形成对刺激的预期,从而产生能获得最大利益的习惯性行为。因此,强化学习的核心便是“让智能体(agent)在环境(environment)中学习,根据环境的状态(state)执行动作(action)并根据环境的反馈奖励(reward)来指导更好的动作”,毕竟好学生是被鼓励(reward)出来的。

世界冠军开讲强化学习 敢跟机器比赛学习吗?

(图:强化学习的“学习之道”)

在中国教育界的人工智能专业尚在摸索道阻且长时,更多学习途径与资源都如《强化学习7日打卡营》一样,学与不学,资料就在那里,只多不少。

“学而不思则罔”

《强化学习7日打卡营-世界冠军带你从零实践》五次直播课程达到9.1万B站人气,峰值2.2万,成为同期B站全站学习类直播人气Top5。主讲师科科是百度飞桨强化学习PARL团队核心成员,所在团队曾两度夺得NeurIPS强化学习赛事世界冠军以及百度最高奖。如今她“破圈”成为B站学习类网红UP主。

“这门课是针对零基础同学来设置的。所以我们花了很多心思让整体听起来不会过于理论,以免最初就消减了大家的兴趣,同时也不能过于脱离理论,让人学完只知其然而不知其所以然。”科科老师对公开课受到如此欢迎也深感惊喜,“最开始我们想有几百人报名就很好,而第一天的课程结束后就有近900人第一时间提交了课后作业,最后报名量是预期的10倍,太意外了。”可见,国内对强化学习感兴趣的人绝对大有人在,但入门和路径似乎是第一道拦路虎,针对这个问题,郭崇华先生回顾了多年自学经历,给出一份参考。

他“总结我的学习路径可以分三个阶段。第一个阶段针对‘不确定性’学习方法论,我们这一代人当时接受的教育在这部分可能比较薄弱,我选择从概率论切入,所以去学了斯坦福科勒教授讲的《概率图模型PGM》、台大叶柄成老师《机率》公开课,以及宾夕法尼亚大学的《概率论》、麻省理工学院非常经典的《概率论——不确定性的科学》,哈佛大学《数据科学之概率论》;第二阶段是统计学与分析学,比如斯坦福大学的《统计学习基础》,哈佛大学《数据分析之统计推断》,MIT的《统计学基础》,约翰霍普金斯大学与宾大的《数据科学建模与推理》等课程;最后第三阶段就是开始接触机器学习领域的内容。当时AlphaGo出来的时候我就对强化学习产生了兴趣,百度推出的这个强化学习入门课程在我上过的这么多课程里都是数一数二的,学习体验特别棒,收获和启发很大,让我对强化学习更感兴趣了。”

无论是持续处于学习状态开拓未知的郭崇华,还是带着兴趣奔向未来前途的郑浩旻,都成为中国“AI人才”快速成长向前的一个缩影。相关报告显示,当前中国人工智能人才缺口已超过500万人,主要体现在高层次领军人才、创新团队和跨学科创新平台不足,基础理论、原创算法等方面突破较少,复合型人才培养导向性不强等。不可否认的是,我国高校人工智能培育起步较晚,然而近年来我国人工智能学科和专业正在加快推进。

2020年3月,教育部再次审批通过180所高校开设人工智能专业。新增数据科学与大数据技术专业的学校也增加到 100 多所;智能制造、机器人工程、智能科学与技术等专业也都有数十所学校通过审批。快速前进的过程中,百度作为国内人工智能“头雁”企业也积极地成为“教育伙伴”。2020年5月20日“WAVE SUMMIT 2020”深度学习开发者峰会上,百度相关负责人介绍,飞桨联合教育部新工科产学研联盟,开设高校深度学习师资培训班,培养了420多家高校千余名AI专业教师,支持200多家高校开设了人工智能课程;算法赛、创意赛、产业赛三大类型赛事全年无休,以赛促学,近一年累计举办超65场。紧接着6月,百度宣布未来5年将持续投入对AI人才的培养,特别是AI应用型人才的培养,预计到2025年培养AI人才500万,为中国新基建与智能经济建设提供人才保障。

功成不必在我,功成必定有我。中国的新基建与未来AI建设,唯有快速培养出一大批怀揣技术信仰,具备专业技术并勇于尝试的高层次AI人才,才能抓住新一轮科技革命和产业变革的机遇。(一鸣)

上一篇新闻

快手海外应用被下架;印度首富旗下Jio再获12亿美元投资

下一篇新闻

传说中的配货—货量分配,与抖音小姐姐的关系~

评论

订阅每日新闻

订阅每日新闻以免错过最新最热门的新加坡新闻。