用暂停token重新训练大模型,AI学会三思而后行

2023-10-14 23:14:28 来源:网络

梦晨 发自 凹非寺

让ChatGPT给出答案之前多想想步骤,就能提高准确率。

那么能不能省去提示词,直接把这种能力内化在大模型里呢?

CMU与谷歌团队的新研究,在训练大模型时加入暂停token来实现这一点。

实验中,8项评测成绩提升,其中SQuAD的EM得分提高18%,CommonSenseQA提高8%,GSM8k中的推理任务也提高1%。

研究者Jack Hack表示,自己不久前就提出类似假设,很高兴看到它被验证。

英伟达工程师Aaron Erickson表示,是不是和人类说话时加入“嗯嗯啊啊”是一个道理?

预训练微调都加入暂停token

整个研究基于一个简单的想法:

在输入序列后面追加一系列(暂停token),从而延迟模型输出下一个token。

这可以给模型额外的计算时间来处理更复杂的输入。

作者不仅在下游任务微调时引入,还在预训练时就随机在序列中插入,让模型在两阶段都学习如何利用这种计算延迟。

预训练阶段,在语料库中随机插入一定比例的暂停token到输入序列,进行标准的自回归预训练。但计算损失时会跳过暂停token的预测。

下游任务微调时,输入中也追加一定数量的暂停 token,然后对目标序列进行自回归预测,同时微调模型参数。

推理阶段也追加相同数量的暂停token,但忽略模型输出直到最后一个暂停token,然后开始提取答案。

实验使用了标准的Transformer纯Decoder模型,分为130M参数和1B参数两个版本。

其中暂停token只增加了1024个参数,也就是它本身的embedding大小。

在9个不同任务上的实验表明,仅在微调阶段引入暂停token的效果并不明显,有些任务不会提升。

但如果在预训练和finetune阶段都使用暂停token,大多数任务上都获得显著提升。

论文还探究了暂停token的数量、位置等关键超参数。发现对于不同的模型通常存在一个最优的数量。

最后作者也提出,这项工作也有不少局限性。

由于暂停token增加了模型计算量,与其他方法对比是否公平还有待讨论

新方法需要重新预训练,在实际应用还有一定困难

对具体工作机制还缺乏深入理解

推理时如果暂停token数量为0,模型表现仍然不佳

搜索引擎You.com的CEO表示,接下来是不是应该把所有提高人类认知表现的技巧都对大模型试一试?

现在已经有了“一步一步地想”和“深呼吸”。

也许下一个爆款论文就是教大模型带着问题睡一觉或者更离谱的健康饮食、注意锻炼。

,用暂停toke素描的诀窍 n重新训练大模型,AI学会三思而后行

相关:

首都圈选举惨败,韩国执政党宣布领导层集体辞职(观察者网讯)据韩联社报道,10月14日,韩国执政党国民力量党任命的官员集体辞职。国民力量党发言人当天通过书面通知表示:“为了党的稳定和更好的发展,所有任命的(国民力量党)官员都将辞职。”韩联社报道称,这些人的集体辞职,可能是为了对首尔市江西区区厅长(区政府首长)补选惨败负责。11日进行的韩国首尔市江西区区厅长补选中,最大在野党共同民主党候选人陈校薰高票当选,国民力量候选人金泰佑败选。12日,韩国总统室..

【文化丝路】文明的坐标|“丝路重镇”玉门关  玉门关遗址位于甘肃省敦煌市西北,相传西汉时西域和田等地所产的美玉经此关口输入中原,因此而得名。该关始建于汉武帝征服河西走廊后“列四郡、据两关”时期,是古丝绸之路上的重要关隘。2014年,玉门关遗址作为中国、哈萨克斯坦和吉尔吉斯斯坦三国联合申遗的“丝绸之路:长安—天山廊道的路网”中的一处遗址点入选《世界遗产名录》。走近玉门关遗址,站在这座孤耸于荒漠的城前,戈壁、沙漠、落日以及祁连山下吹来的劲风,共..

网传呼和浩特职业学院一男生被女生下毒致死 校方:谣言  中新网呼和浩特10月14日电 (记者 张林虎)14日,记者从呼和浩特职业学院获悉,网传该院一男生被女生下毒致死系谣言。   连日来,有人在社交媒体发布视频称,因感情纠纷,呼和浩特职业学院一男生被女生下毒致死,视频引发社会关注。   针对此事,呼和浩特职业学院发表声明称,该信息为谣言。   声明称,该信息描述的事件为2022年4月,江苏某技术学院学生在食堂就餐时,突发疾病,且当时该校已发文澄清,信息内容与..

印度印尼,出海狼窝前天一个长期在海外做投资,肉身去过100多个国家的朋友说,感觉世界越来越乱。压强正沿着世界政经链条,传递给每一个点。不止是俄乌和巴以,不止是热战。刚刚,印度执法部门逮捕了四个行业高管,其中包括一个vivo在印度工作的中国公民,罪名是非法洗钱。vivo回应是,vivo严格遵守印度法律。去年印度也是以洗钱为理由,冻结了vivo几亿人民币的银行账户,且不管,vivo在印度雇了差不多1万工人,有7万个销售点,这些基本都是印度的..

Open AI投了一个“小公司”,只有16个员工Mem把宝押在了AI上,这也是OpenAI投资的原因。作 者丨潘绮晨编辑丨赵晓晓图源丨Mem官网一家初创公司突然火起来,要么是创始人本身的名气和经历,要么就是被更大的企业投资。Mem属于后者。Mem公司成立于2019年,总部位于美国洛斯阿尔托斯山,是一款重塑用户信息搜集和整合的工具,由华裔工程师丹尼斯·徐(Dennis Xu)和Kevin Moody共同创办,也是世界上第一个具有AI能力的工作台,主打快速记录与内容搜索,允许用户附加主题标..

OpenAI预计年营收13亿美元:付费版ChatGPT和AI开发工具加持乐天 10月14日在付费版ChatGPT和AI开发工具的加持下,人工智能企业OpenAI在2023年的营收有望远超预期。据外媒报导,OpenAI的CEO山姆·奥特曼(Sam Altman)日前对员工表示,公司2023年的营收有望达到13亿美元,这意味着OpenAI的月收入超过1亿美元。据报导,自OpenAI于今年2月推出付费版ChatGPT以来,公司的收入增长明显。如果OpenAI今年的营收能够达到13亿美元,将比公司此前10亿美元的预估高出30%。2022年,OpenAI的全年收入..

天猫双11将于10月24日晚8点正式开启10月14日每经快讯,《每日经济新闻》记者获悉,与去年一样,今年天猫双11将于10月24日晚8点正式开启预售,两波正式开卖时间分别为:10月31日晚8点和11月10日晚8点。据悉,今年天猫双11核心主打“全网最低价”。玩法上,除了往年的满减,天猫还会推出大范围的直降和官方立减活动,还有“买贵必赔”服务。

美军招标新安全项目,用于抵御针对军用头显的感知攻击IT之家 10 月 14 日消息,美国国防高级研究计划局(DARPA)正准备启动新一轮招标,用于开发内部感知安全计划(ICS),目的是保护佩戴军用头显设备的士兵,避免遭到针对感官的网络攻击。IT之家注:DARPA 将此类攻击称之为感知攻击(Cognitive Attacks),感知攻击类似于传统的网络攻击,会导致技术资源过载、冗余数据的集成或网络故障成分,但攻击对象是佩戴者。攻击者利用用户与混合现实设备之间的紧密联系,通过显示损害..

三星S24 Ultra跑分曝光 搭载第三代骁龙8配备12GB内存或许是因为三星S24系列的发布日期越来越近,近期网络上有关于三星S24系列的爆料也开始逐渐增多。近期有外媒在跑分平台GeekBench上看到了型号为SM-S928B的机型,这部手机很有可能就是即将发布的三星S24 Ultra。据悉,登陆跑分平台的三星S24 Ultra搭载即将发布的第三代高通骁龙8移动平台,其单核心成绩为2059分,多核心成绩为4506分,内部搭载12GB的内存。不过或许是因为工程机的原因,这部手机的跑分并不高,看来尚需官方对其进..

美议员批以色列:这是种族清洗