谷歌让大模型更具“心智”,GPT-4任务准确率大增

2023-10-14 23:14:40 来源:网络

谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。

在新的提示策略下,大模型不仅能推测出人类所面临的问题,还学会了用推测的结论调整自己的行为。

有了这一成果,GPT-4的“心智”水平已经提高到了人类的71%。

具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。但如果你要它根据这种推理给出行动建议,那可就难倒大模型了。

举个例子,小明放学回家后把书包扔到沙发上就跑出去玩了,妈妈看到之后帮小明把包放到了卧室。

如果大模型能够像人类一样,在小明回来之后告诉他包在卧室,就说明大模型具备了“心智理论”。

研究人员把这种做法称为Thinking for Doing(T4D),并设计了相应的任务。

为了提高模型在T4D任务上的表现,团队进一步提出了Foresee and Reflect(FaR)提示策略,结果让大模型在“心智”上取得了重大突破。

论文的标题也包含了“How far……” ,一语双关,既体现了FaR框架对大模型的帮助,又暗含了大模型离具有人类“心智”的距离。

那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?

大模型离具有“心智”更进一步

我们还是从例子说起,如下图所示,一共有绿色和蓝色两个橱柜,Tom在绿色橱柜中放了一块巧克力。

Tom离开后,Ella把这块巧克力挪到了蓝色的柜子里。

那么等Tom再回来,会从哪个柜子中找巧克力呢?(当然是绿色的)

这就是一个“推理”任务,是心理学上著名的“萨利-安妮”(用于测试“心智”)实验的变体。

而T4D任务是这样的:

如果你就在旁边(并且知道发生了什么),会怎么做?

人类会选择告诉Tom巧克力被挪走了,但(未经调教的)大模型就不一定会这样做了。

为了更宏观地测试大模型在调整前后的表现,研究团队选择了ToMi数据集并改编成了T4D-Tom数据集。

其中的ToMi是一个由大量“萨利-安妮”类情景组成的测试数据集,用于测试大模型的“心智推理”能力。

可以看出,在推理上,表现最好的GPT-4与人类已经相差无几,但在T4D任务上才刚刚达到人类水平的一半。

于是,研究团队提出的FaR方法登场了。

FaR框架的核心奥义就是模仿人类的理性思维方式,和A*搜索算法(用于搜索最短路径)有些相似。

具体来说,FaR包括ForeseeReflect两步。

Foresee过程中模型会被要求预测接下来会发生什么,并分析人所面临的“困难”。

Reflect发生在Foresee之后,模型会预测自己接下来的行为是否能解决相应的“困难”。

有了FaR框架,效果也是立竿见影。

相比于思维链(CoT)、思维树(ToT)、自己提问等方式,FaR显著提高了大模型在“萨利-安妮”类T4D问题上的准确率。

特别是GPT-4,准确率从人类的50%提升到了71%,GPT-3.5以及谷歌自家的PaLM表现也有提高。

消融实验结果表明,Foresee和Reflect两步都是FaR的关键步骤,缺一不可。

为了验证FaR方法的通用性和鲁棒性,研究团队还进行了一系列泛化测试。

首先是在“萨利-安妮”情景的基础上改变故事的结构,研究团队一共尝试了三种方式:

D1:增加房间的数量

D2:人物的数量增多

D3:容器的数量增加到四个

结果FaR依旧成功帮助大模型提高了任务的准确率,在第三种模式下GPT-4甚至取得了和人类相当的成绩

即使故意设置干扰信息,FaR依旧可以提高大模型的表现。

研究团队专门构建了包含困扰信息的“Faux Pas”数据集,结果GPT-4的表现从31%提高到了76%。

作者简介

FaR论文的第一作者是南加州大学NLP实验室的华人博士生Pei Zhou。

这项成果是他在谷歌实习期间完成的。

此外,来自谷歌(包括DeepMind)、卡耐基梅隆大学和的芝加哥大学的学者也参与了本项目。

那么对于大模型的“心智”,你有什么看法呢?

,谷歌让大模型更素锦 具“心智”,GPT-4任务准确率大增

相关:

用暂停token重新训练大模型,AI学会三思而后行梦晨 发自 凹非寺让ChatGPT给出答案之前多想想步骤,就能提高准确率。那么能不能省去提示词,直接把这种能力内化在大模型里呢?CMU与谷歌团队的新研究,在训练大模型时加入暂停token来实现这一点。实验中,8项评测成绩提升,其中SQuAD的EM得分提高18%,CommonSenseQA提高8%,GSM8k中的推理任务也提高1%。研究者Jack Hack表示,自己不久前就提出类似假设,很高兴看到它被验证。英伟达工程师Aaron Erickson表示,是不是和人类..

首都圈选举惨败,韩国执政党宣布领导层集体辞职(观察者网讯)据韩联社报道,10月14日,韩国执政党国民力量党任命的官员集体辞职。国民力量党发言人当天通过书面通知表示:“为了党的稳定和更好的发展,所有任命的(国民力量党)官员都将辞职。”韩联社报道称,这些人的集体辞职,可能是为了对首尔市江西区区厅长(区政府首长)补选惨败负责。11日进行的韩国首尔市江西区区厅长补选中,最大在野党共同民主党候选人陈校薰高票当选,国民力量候选人金泰佑败选。12日,韩国总统室..

【文化丝路】文明的坐标|“丝路重镇”玉门关  玉门关遗址位于甘肃省敦煌市西北,相传西汉时西域和田等地所产的美玉经此关口输入中原,因此而得名。该关始建于汉武帝征服河西走廊后“列四郡、据两关”时期,是古丝绸之路上的重要关隘。2014年,玉门关遗址作为中国、哈萨克斯坦和吉尔吉斯斯坦三国联合申遗的“丝绸之路:长安—天山廊道的路网”中的一处遗址点入选《世界遗产名录》。走近玉门关遗址,站在这座孤耸于荒漠的城前,戈壁、沙漠、落日以及祁连山下吹来的劲风,共..

网传呼和浩特职业学院一男生被女生下毒致死 校方:谣言  中新网呼和浩特10月14日电 (记者 张林虎)14日,记者从呼和浩特职业学院获悉,网传该院一男生被女生下毒致死系谣言。   连日来,有人在社交媒体发布视频称,因感情纠纷,呼和浩特职业学院一男生被女生下毒致死,视频引发社会关注。   针对此事,呼和浩特职业学院发表声明称,该信息为谣言。   声明称,该信息描述的事件为2022年4月,江苏某技术学院学生在食堂就餐时,突发疾病,且当时该校已发文澄清,信息内容与..

印度印尼,出海狼窝前天一个长期在海外做投资,肉身去过100多个国家的朋友说,感觉世界越来越乱。压强正沿着世界政经链条,传递给每一个点。不止是俄乌和巴以,不止是热战。刚刚,印度执法部门逮捕了四个行业高管,其中包括一个vivo在印度工作的中国公民,罪名是非法洗钱。vivo回应是,vivo严格遵守印度法律。去年印度也是以洗钱为理由,冻结了vivo几亿人民币的银行账户,且不管,vivo在印度雇了差不多1万工人,有7万个销售点,这些基本都是印度的..

Open AI投了一个“小公司”,只有16个员工Mem把宝押在了AI上,这也是OpenAI投资的原因。作 者丨潘绮晨编辑丨赵晓晓图源丨Mem官网一家初创公司突然火起来,要么是创始人本身的名气和经历,要么就是被更大的企业投资。Mem属于后者。Mem公司成立于2019年,总部位于美国洛斯阿尔托斯山,是一款重塑用户信息搜集和整合的工具,由华裔工程师丹尼斯·徐(Dennis Xu)和Kevin Moody共同创办,也是世界上第一个具有AI能力的工作台,主打快速记录与内容搜索,允许用户附加主题标..

OpenAI预计年营收13亿美元:付费版ChatGPT和AI开发工具加持乐天 10月14日在付费版ChatGPT和AI开发工具的加持下,人工智能企业OpenAI在2023年的营收有望远超预期。据外媒报导,OpenAI的CEO山姆·奥特曼(Sam Altman)日前对员工表示,公司2023年的营收有望达到13亿美元,这意味着OpenAI的月收入超过1亿美元。据报导,自OpenAI于今年2月推出付费版ChatGPT以来,公司的收入增长明显。如果OpenAI今年的营收能够达到13亿美元,将比公司此前10亿美元的预估高出30%。2022年,OpenAI的全年收入..

天猫双11将于10月24日晚8点正式开启10月14日每经快讯,《每日经济新闻》记者获悉,与去年一样,今年天猫双11将于10月24日晚8点正式开启预售,两波正式开卖时间分别为:10月31日晚8点和11月10日晚8点。据悉,今年天猫双11核心主打“全网最低价”。玩法上,除了往年的满减,天猫还会推出大范围的直降和官方立减活动,还有“买贵必赔”服务。

美军招标新安全项目,用于抵御针对军用头显的感知攻击IT之家 10 月 14 日消息,美国国防高级研究计划局(DARPA)正准备启动新一轮招标,用于开发内部感知安全计划(ICS),目的是保护佩戴军用头显设备的士兵,避免遭到针对感官的网络攻击。IT之家注:DARPA 将此类攻击称之为感知攻击(Cognitive Attacks),感知攻击类似于传统的网络攻击,会导致技术资源过载、冗余数据的集成或网络故障成分,但攻击对象是佩戴者。攻击者利用用户与混合现实设备之间的紧密联系,通过显示损害..

三星S24 Ultra跑分曝光 搭载第三代骁龙8配备12GB内存或许是因为三星S24系列的发布日期越来越近,近期网络上有关于三星S24系列的爆料也开始逐渐增多。近期有外媒在跑分平台GeekBench上看到了型号为SM-S928B的机型,这部手机很有可能就是即将发布的三星S24 Ultra。据悉,登陆跑分平台的三星S24 Ultra搭载即将发布的第三代高通骁龙8移动平台,其单核心成绩为2059分,多核心成绩为4506分,内部搭载12GB的内存。不过或许是因为工程机的原因,这部手机的跑分并不高,看来尚需官方对其进..