天壤团队:深度强化学习如何落地围棋等多个领域

2018-06-04 11:47:20 来源:网络

文章来源:雷锋网

5月26日,又一位世界围棋冠军败给了AI。不过与其对战的不是接连击败李世石和柯洁的AlphaGo,而是国内创业公司天壤智能的围棋AI。

在杭州云栖小镇的2050大会上,天壤智能举办了一场“天壤AI围棋论道世界冠军人机表演赛”,天壤智能的AI围棋执白子对战韩国围棋第一人、获得三次世界冠军的朴廷桓,激战三小时后,最终朴廷桓认负。

据天壤智能介绍,围棋AI是其人工智能平台的实验性项目,在人工智能围棋对弈上,天壤围棋已经进入除了AlphaGo的围棋人工智能第一集团。目前,通过以AI围棋积累的深度强化学习技术,天壤智能正在搭建通用人工智能平台,为营销、交通、金融等领域提供高效精准的AI服务。

在2050大会现场,雷锋网与天壤智能CEO薛贵荣、CTO张雷和COO韩定一进行了深度交流,除了AI围棋外,深入了解了其在AI广告营销的落地场景。

天壤团队与世界围棋冠军朴廷桓的合影

(2016年,薛贵荣(右六)创办了天壤智能,在此前,薛贵荣是阿里巴巴旗下阿里妈妈大数据中心负责人、阿里妈妈首席数据科学家,负责研发了阿里搜索引擎(神马搜索)、数据管理平台、营销技术平台等。COO韩定一(右二)是原阿里巴巴旗下阿里妈妈钻石展位、达摩技术负责人,在阿里任职期间先后负责研发了全网用户行为分析平台、云搜索、钻石展位、达摩平台。CTO张雷(右三)曾在百度搜索广告部门任主任架构师,曾任IBM中国研究院高级研究员且领导了IBM DeepQA开放问答系统中国团队的技术工作。)

深耕AI围棋,掌握核心技术

2016年,薛贵荣从阿里离职,创办天壤智能,主要的业务是精准广告营销。当时正值AlphaGo大杀四方,AlphaGo背后的深度强化学习技术吸引了天壤的注意,在天壤看来除了围棋外,深度强化学习还能有更多的应用领域。

张雷告诉雷锋网,现在的AI主要分为两类,一是感知类的AI,例如人脸识别、语音识别,还有一种是在感知的基础上做决策,通过深度强化学习技术来做。天壤智能成立时,感知AI领域已经有不少做得不错的公司,他们就想做更往前一步的决策AI,围棋就是最好的例子,需要在感知的基础上去做决策。

天壤智能一头扎入了AlphaGo论文中,薛贵荣谈到,很多公司可能就是看看论文直接学习技术,但是他觉得不亲自做一遍根本就不知道这个技术可能还有其他什么解决方法,不知道如何去将这个技术调整应用在别的领域。因此,天壤从零开始开发天壤智能AI围棋。

与同样在探索深度强化学习技术的DeepMind等科技巨头相比,天壤作为一家成立仅两年的创业公司,在算力上完全没有与科技巨头媲美的资源,而深度强化学习又是一项对计算资源消耗极大的技术,天壤从系统、策略上进行了独有的创新。

据介绍,在系统维度,天壤基于Berkeley Ray搭建了大规模分布式深度强化学习平台天云,实现了大规模GPU上的模拟、训练、模型迭代更新、参数自动调优等。从策略上,天壤通过创新型的伴随训练的方式,搭建渐进式的加深网络,先从小网络开始训练模型,再逐步切换到更大的网络。在更快的迭代速度下,实现非常深的神经网络训练。薛贵荣谈到,“在系统和策略上的技术突破,是天壤训练出能够击败世界围棋冠军、跻身全球围棋AI第一集团的秘诀”。

当然,在AlphaGo之后涌现出的人工智能围棋程序还包括:日本的DeepZenGo、腾讯的绝艺、神算子、先知围棋等。这些人工智能围棋程序也曾多次一较高下:2017年8月,在第一届“中信证券”杯世界智能围棋公开赛上,天壤智能与腾讯绝艺、日本DeepZenGo和台湾的CGI一起杀入四强。2017年12月,在第一届围棋AI龙星战中,天壤获得第三名,排在绝艺、DeepZenGo之后。而目前,据薛贵荣介绍,天壤智能AI围棋已经仅次于AlphaGo,就在即将到来的六月,还会与腾讯绝艺一较高下。

人工智能围棋程序令人向往,除了世界冠军外,不少人也希望能够有机会与其较量,但是由于人工智能围棋程序需要大量的硬件、算力支持,一次人机对战的成本就很高。而在此次与朴廷桓的对战中,天壤智能只使用了英特尔通用CPU平台,而不是通常的GPU平台,据称,英特尔为此次人机围棋对战提供了有力的技术支持。

薛贵荣告诉雷锋网,目前天壤智能将围棋AI开放给公众,在网站上任何人都可以跟职业九段等级的围棋AI进行对弈。天壤智能也与棋院达成合作,用围棋AI给棋手陪练。

AI赋能广告投放决策

通过围棋AI,天壤掌握了深度强化学习,并且将其落地不同的应用场景。第一个场景就是他们团队最熟悉的广告营销领域。在天壤看来,营销投放与围棋对弈类似,本质是动态环境复杂组合空间的实时决策。

在互联网时代,广告主投放网络广告的主要手段是程序化广告平台(包括DSP、SSP等),腾讯的广点通、阿里的钻石展位是典型的程序化广告平台。天壤创始人兼CEO薛贵荣曾负责阿里妈妈的大数据营销技术平台,COO韩定一是阿里妈妈钻石展位、达摩盘技术负责人,他们对程序化广告有十分深入的了解。

韩定一告诉雷锋网(公众号:雷锋网),程序化广告实现了一定程度的自动化和精准的广告投放,但是很多事情依然需要依靠人力,例如媒介投放人员需要在上千的分类标签中选定自己的目标对象、需要选择投放的地域时段、需要给出广告竞价,此外,还需要根据每一次投放的数据反馈来调整下一次的投放策略,分析如何投放才能提升效果。在天壤看来,虽然现在互联网产生了众多的数据,但是广告主和广告投放人员依然无法有效地利用数据。

天壤利用深度强化学习技术,在程序化广告平台的基础上推出了“天壤营销大脑”,它在客户的商业需求和广告平台之间建立了一个商业逻辑。利用“营销大脑”,广告主只需要进行简单的操作,告诉平台媒介投放的基本商业逻辑:活动是针对新客户还是老客户、希望吸引多少量、投入的资金多少。然后,“营销大脑”能根据大数据自动为客户去挑选目标人群、制定投放地域时段、广告竞价,然后不断实时调整以达到最好的投放效果。

在2017年双11期间,天壤智能的“营销大脑”就已经投入使用。双11活动期间,天钻总共帮助商家完成7213万的钻展投放预算,促成双11当天总成交13.58亿。其效果也有明显提升, 商户的获客成本下降56%、ROI平均提升78%。

据介绍,AI机器人为每个商家每天提供决策34560次,平均每2.5秒一次,同时每个商家每天进行2000次的调整,平均每43.2秒一次。在程序化广告投放中,每一次决策都将引发对最终获得营销结果的影响。加上竞价环境的变化,需要不断调整才能获得最优,随着人工智能技术的发展,机器决策将成为更适合营销投放的一种方式。

在韩定一看来,目前广告投放人员的重复性工作很多也很机械,这些投放和数据分析的工作交给AI去做可以解放广告投放人员,他们可以去负责更多与客户需求、广告创意相关的工作,进一步提升营销效果。

我们离通用人工智能还有多远?

AI围棋、AI广告营销都是天壤将深度强化学习技术落地的应用场景,天壤还在探索AI在交通信号灯控制、金融量化投资上的应用,而他们的长远规划是打造人工智能通用平台,以AI技术赋能更多的行业和场景。

近两年,AI发展迅猛,正在改变各个传统行业。然而目前的AI技术大多是在计算机视觉、自然语言处理、语音技术的单点突破,这些感知类的技术的进步建立在大量的人工标注数据之上,而当很多场景需要AI去做决策的时候,并没有这样的数据可以使用。

通用人工智能主要有两个特点,一是端对端(end-to-end)的学习,二是任务自适应, 无需人类调参而胜任不同的任务。DeepMind的AlphaGo让大家看到了深度强化学习技术打造通用人工智能平台的希望。

张雷告诉雷锋网,“现在的深度强化学习技术的状态跟6年前深度学习很像。2012的时候,深度学习技术刚刚成熟,使得图像识别准确率突然取得了一个很大的提高,很多人投入其中,准确率越做越高。目前,深度强化学习技术应用到围棋领域,击败人类冠军是一个标志性的突破,吸引很多人来做,未来应该会有更多的突破。”

,天壤团队漯河区号 :深度强化学习如何落地围棋等多个领域

相关:

里卡多:夏休前再拿一场胜利就能想想总冠军本赛季已经获得两站分站赛冠军之后,红牛车队的里卡多认为,如果夏休之前还能拿到一场胜利,自己就能可能成为年度总冠军的争夺者。摩纳哥站是里卡多本赛季的第二冠,之前他在上海站夺冠。在积分榜上,他获得了78分,落后汉密尔顿28分。由于引擎上存在差距,红牛并不是与梅赛德斯和法拉利的对手,尤其是在排位赛阶段,但里卡多确实已经获得了和汉密尔顿、维特尔同样数量的分站赛冠军。“我认为在获胜之后,这是一个自然的问题,”..

太可怕了,今年FMVP必须是他吧!骑士真打不过2-0了!勇士主场122-103大胜骑士!骑士上半场并没有打出他们自己预料的强势开局,詹姆斯也没有拿到泰伦卢预料的60+。全场,詹姆斯只拿到29分9板13助,还有5个失误。 JR虽然没有受上一场风波的影响,但也并没有打出“救赎之战”,全场9投2中,常规操作的拿下5分1板2助。 JR站上罚球线的时候,勇士主场的球迷非常坏的高喊MVP 骑士在上半场就挖下了一个坑,这个坑基本是他们无力填满的。 第三节,骑士打得非常出色,单节轰下34分。..

场均14.5到2战1分 詹皇最信任的180分大拿咋了 北京时间6月4日NBA总决赛第二场比赛战罢,最终骑士坐镇甲骨文中心以103比122不敌勇士,总比分0-2落后。本场比赛科沃尔3投0中,仅仅依靠罚球拿到1分外加2篮板1盖帽的数据。 常规赛里科沃尔场均可以得到9.2分,但是到了季后赛科沃尔悄然的爆发了,首轮对阵步行者科沃尔2场比赛得分达到18分以上,对阵猛龙科沃尔更是一发不可收拾3场得分15+,场均可以得到14.5分,对阵凯尔特人科沃尔也有3场比赛得分上双,到了季后赛科沃尔陡然成为..

曝巴萨最后通牒格列兹曼:快快公布你的未来关于自己的未来,格列兹曼始终没有透露,而据《每日体育报》的报道,巴萨已经向格列兹曼发出了最后通牒。 格列兹曼是巴萨今年夏季的重点目标,巴萨要求格列兹曼尽快决定自己的未来。如果格列兹曼不同意加盟巴萨,那么红蓝军团将转攻其他目标,而不是在格列兹曼身上浪费时间。 巴萨通牒格列兹曼 此前格列兹曼接受采访时表示,他将在世界杯之前决定他的未来,所以下周将成为关键的一周,揭晓格列兹曼的未来。巴萨也将敲定他们的引..

飞讯-恒大1200万年薪再追纳因 前中超金靴或回归北京时间6月4日消息,2018赛季中超二次转会期将至,一些中国俱乐部有更换外援的计划,向感兴趣的球员提交了报价。一些中超、中甲外援近期离队,加盟其他俱乐部。一些中国俱乐部与外援商讨续约事宜。今日转会飞讯主要包括,据“mondonapoli”、“sportnotizie24”等多家意大利媒体报道,广州恒大再次追求比利时中场纳因格兰。广州恒大今年年初曾为纳因格兰提供5000万欧元转会费报价,但当时未能签约。纳因格兰从来没有真正考虑离..

勇士全场打出这样5球 评论员默默说了一句残忍北京时间6月4日,NBA总决赛第二场开打,在勇士全队水银泻地般的进攻下,他们以122-103战胜了骑士队。本场比赛骑士最失意的可以说是凯文-勒夫,在被科比毒奶之后勇士队把他当成了骑士的防守漏洞,拽着就是一通打,著名NBA评论员杨毅看到勇士这样的战术也直接给了两个字的点评:“残忍。”库里今天连续面对勒夫把球丢进篮筐,勒夫的防守在他面前好像不存在似的,许多网友看到这样的进球直呼库里要把勒夫打出心理阴影。 在比赛的第..

季后赛百场get! 勇士队史第一人原来是他北京时间6月4日,总决赛第2场,勇士在主场以122-103战胜骑士。勇士首发得分后卫克雷-汤普森出场34分钟,13投8中,三分球8投3中,得到20分。 上一场比赛,克雷在第一节左脚踝被JR撞伤。昨天,勇士队表示克雷左脚踝高位扭伤,能否打第2场存在疑问。 今天赛前,勇士队最终决定克雷继续出战,这将是他职业生涯的第100场季后赛,他也成为了勇士队历史上第一位做到这点的球员。事实上,自从克雷进入NBA之后,他还从未缺席过季后赛。 本..

足协内部曾为足协杯U23存分歧 协调里皮团队放人记者刘翔宇报道 目前正在重庆万州集训的U23男足,将于6月4日、7日、10日分别进行三场友谊赛,前两场的对手都是纳米比亚,最后一场比赛的对手是朝鲜队。此次比赛是今年印尼亚运会之前,U23最后一次正式的热身比赛,因此意义极为重要。国足六将火速驰援本期U23男足集训名单还是以95年龄段为主,另外搭配一些97年龄段球员,共有29人入选,国内这两个年龄段最强的球员基本上都已经进入名单当中,其中6人同时入选了国家队,分别是韦..

26+9+7!勇士死神跨过心魔 硬刚詹皇他真不虚北京时间6月4日,金州勇士队主场迎战克利夫兰骑士队,此役勇士首发小前锋凯文-杜兰特出战38分钟,14投10中,其中三分球3投2中得到26分,外加9个篮板和7次助攻。凭借着他的强势发挥,最终勇士以122比103战胜对手,总比分2比0领先。上一场杜兰特22投8中得到26分,在防守勒布朗-詹姆斯上消耗了过多精力,导致他在最后时刻的进攻有些乏力。数据统计显示,杜兰特在最后的6次运动战投篮中,全部以打铁告终。不过他连续6次走上罚球线,..

“寻找”围棋小先锋意义非凡 在比赛中学会坚强6月3日,聂卫平围棋道场与Google共同发起的“寻找围棋小先锋”全国青少年围棋公开赛在北京结束了第一场分站赛,颁奖仪式上各组小朋友集体合影时笑声不断,活动在一派欢快的气氛中结束。除了一个因为未能打进总决赛,边哭边说“我要去上海接着比赛”的小姑娘。他们都知道AlphaGo颁奖仪式由本次比赛裁判长樊麾主持,开场白他用AlphaGo的问题成功引爆了现场的气氛。全场的小棋手无论大小,基本都知道AlphaGo,而且清楚的知道李世石..