2028年人类将迎来AGI:DeepMind联合创始人长文预测未来AI发展

2023-11-14 04:02:26 来源:网络

AGI如何定义、又何时到来?来自谷歌DeepMind的创始人兼首席AGI科学家Shane Legg向我们描述了当下我们与AGI的距离。

10月26日,在X上有三万订阅的Dwarkesh Podcast(矮人播客)主持人Dwarkesh Patel采访了谷歌DeepMind的创始人兼首席AGI科学家Shane Legg。

他们讨论了AGI出现的时间节点、可能的AGI新架构、作为下一个行业标杆的多模态、如何让超越人类的模型进行对齐以及Deepmind在模型能力和安全之间的抉择。

而在前不久,《华尔街日报》与OpenAI的CEO Sam Altman和CTO Mira Murati共同探讨了有关AGI的未来(链接)。

一场又一场的AGI讨论盛宴接连不断,曾经只存在于科幻作品中的AGI,似乎近在眼前了。

01 AGI的定义以及发生节点

在衡量AGI的进展之前,需要先对AGI进行定义。

AGI,即通用人工智能。但对于什么是「通用」的,却有很多不同的定义,这让回答AGI是什么变得非常困难。

Shane Legg认为,能够执行一般人类完成的认知任务、甚至超越这个范围以上的,就可以认为是AGI。

由此可以得到,要测试AI是否正在接近或达到这个阈值,我们需要对其进行不同类型的、涵盖人类认知广度的测量。

但这非常困难,因为我们永远不会拥有人们「能做到的事」的完整集合,这个范围太过于庞大而且还在不断更新。

因此,在判断是否为AGI时,如果一个人工智能系统在所有能提出的人类认知任务上达到了人类的表现水平,就可以认为这就是AGI。

在通常的理解中,可能存在有一些事情是人类可以做到但机器做不到的。但当我们穷尽各种尝试也找不到这样的「事情」后,人类就拥有了通用人工智能。

但在实际的测量中我们仍不能提出包含人类全部认知水平的任务,如著名的基准测试:测量大规模多任务语言理解(Measuring Massive Multitask Language Understanding,MMLU)尽管包含了多项人类知识领域,但缺少语言模型对流视频的理解。

此类任务的缺失也指出了一个问题:现在的语言模型不像人类拥有情景记忆。

我们的记忆包括工作记忆,即最近发生的事情;皮层记忆存在于大脑皮层中。在工作记忆到皮层记忆之间还有一个系统,即情景记忆,由海马体负责。

情景记忆主要用于快速学习和记住特定的事件或信息,它允许我们在不同时间点回想起过去发生的事情,就像你可以回忆起毕业典礼的场景,包括穿着学士袍的样子、毕业帽的颜色、毕业典礼演讲者的言辞,以及与同学们一起庆祝的情景。

情节记忆在帮助我们建立个人经历和学习新信息方面起着重要作用。

但模型并不具备这样的功能,只是通过增加上下文窗口的长度(更像是工作记忆)来弥补模型记忆的缺陷。

从另一种角度来说,情景记忆帮助人类拥有非常高的样本效率,可以从较少的样本中学到更多的信息。

对于大型语言模型而言,它们也可以在上下文窗口中利用信息,以实现某种程度的样本效率,但这与人类的学习方式略有不同。

模型能够在它们的上下文窗口中迅速学习信息,这是一种快速的、局部的学习过程,可以帮助它们在特定上下文中适应。

但在实际的模型训练时,它们会经历一个更长的过程,处理数万亿个标记的数据,以更全面地学习语言的结构和规律。

而这两个阶段之间可能会存在某些学习机制或过程的缺失,这可能导致模型在某些情况下无法很好地理解或处理信息。

但Shane Legg并不认为模型不具备情景记忆会是一种基础限制。

相较于过去,大型语言模型发生了根本性的变化。现在,我们知道如何构建具有一定理解程度的模型,拥有可扩展的方法来实现这一点,从而为解锁许多全新的可能性打开了大门。

「现在我们有相对清晰的前进路径,可以解决现有模型中大部分不足之处,无论是关于妄想、事实性、它们所具备的记忆和学习方式,还是理解视频等各种各样的事情。

我们只需要更多的研究和工作,所有这些问题都将得到改善,或迎刃而解。」

回到一开始的问题:如何衡量人工智能何时达到或超越人类水平?

Shane Legg表示,「这不是一个单一的因素就可以解决的,而这就是问题的本质。

因为它涉及到了通用智能。我们必须确保它可以完成很多不同的任务,并且不会出现哪怕一个漏洞。」

我们已经拥有可以在某些领域表现非常令人印象深刻,甚至超越人类水平的系统。

Shane Legg表示,他想要一整套非常全面的测试,当有人想要用对抗的方式提出机器无法做到、人类却能做到的事,在这些人无法成功时我们就到达了AGI。

在DeepMind的早期研究中,很多任务都涉及到了人工智能在开放环境中的操作。

这符合Shane Legg试图提出的对智力的定义和测量,即能够在不同的领域和不同的任务中表现良好。

这与模型性能的能力和性能的广度有关。

在评估智能时,存在一种框架能够根据任务和环境的复杂性进行加权。

这种权衡有点像奥卡姆剃刀原理,倾向于加权那些更简单、更重要的任务和环境。

柯尔莫哥洛夫复杂度(Kolmogorov complexity )中,存在一个自由参数,即参考机器(reference machine)。

参考机器的选择可以影响智能度量的结果,它可以改变不同任务和环境在度量中的权重和分布。

但选择合适的参考机器仍然是一个未解决的问题,因为没有一种通用的参考机器,通常情况下,人们会使用图灵机作为参考。

Shane Legg认为,解决这个问题最自然的做法是思考对人类而言智能的含义。

人类智能在我们生活的环境中意义重大,它确实存在、并对世界产生了深远的影响,具有强大的力量。

如果AI能够达到人类水平的智能,这将在经济和哲学层面产生重要的影响,如改变经济结构,并涉及到我们对智能的哲学理解。

而从历史角度来看,这也是一个重要的转折点。

因此,以人类智能作为参考机器的选择在多个方面都具有合理性。

另一个原因则是纯粹的科尔莫哥洛夫复杂性定义实际上是不可计算的。

02 我们需要新的AI架构吗?

关于AI的情境记忆的缺陷问题,Shane Legg认为这涉及到了模型的架构问题。

当前的LLMs架构主要依赖于上下文窗口和权重,但这不足以满足复杂的认知任务。

大脑在处理情景记忆时采用了不同的机制,可以快速学习特定信息,这与缓慢学习深层次的通用性概念不同。

然而,一个综合的智能系统应该能够同时处理这两种任务,因此我们需要对架构进行改进。

以人类智能作为参考机器观点出自于Shane Legg2008年的论文。

他在当时提出了一种用于衡量智能的方法,即压缩测试(compression test),它涉及填充文本样本中的单词以衡量智能。

这种方法与当前LLMs的训练方式非常吻合,即基于大量数据进行序列预测。

这涉及到Marcus Hutter的AIXI理论以及Solomonoff归纳。

Solomonoff归纳是一种理论上非常优雅且样本效率极高的预测系统,虽然它无法在实际计算中应用。

但Shane Legg表示,使用Solomonoff归纳作为基础,就可以构建一个通用代理,并通过添加搜索和强化信号来使其成为通用人工智能,这就是AIXI的原理。

如果我们拥有一个出色的序列预测器,或者是Solomonoff归纳的某种近似,那么,从这一点出发构建一个非常强大、通用的AGI系统只是另一个步骤。

Shane Legg说,这正是我们今天所看到的情况:

这些极其强大的基础模型实际上是非常出色的序列预测器,它们根据所有这些数据对世界进行了压缩。

然后我们将能够以不同的方式扩展这些模型,并构建非常强大的代理。

03 DeepMind的「超级对齐」

「对齐」(Alignment)指的是确保AI系统或通用人工智能(AGI)系统的目标、行为和决策与人类价值观、伦理准则和目标一致的过程。

这是为了防止AI系统出现不符合人类价值观或可能带来危险的行为,并确保它们在处理伦理问题时能够做出符合道德的决策。

DeepMind在当下流行的强化学习和自博弈,如如 Constitution AI 或 RLHF方面,已有数十年的深耕。

在解决具有人类智能水平的模型安全问题上,DeepMind持续做着努力:

模型可解释性、过程监督、红队、评估模型危险等级,以及与机构和政府联手开展工作......

而Shane Legg认为,当AGI水平的系统出现时,试图限制或遏制其发展不是一个好的选择。

我们要做的是调整这个模型,使其与人类的伦理价值高度一致,从一开始就具备高度道德伦理性。

这需要系统能够进行深入的世界理解,良好的道德伦理理解,以及稳健且可靠的推理能力。

可靠的AGI不应该像当前的基础模型那样仅仅输出「第一反应」,而应该具备「第二系统」的能力,进行深入的推理和道德分析。

Shane Legg提到,要确保AGI系统遵循人类伦理准则首先应该对系统进行广泛的伦理培训,确保其对人类伦理有很好的理解。

在这个过程中,社会学家和伦理学家等各方需要共同决定系统应该遵循的伦理原则和价值观。

并且,系统需要被工程化,以确保其在每次决策时都会使用深刻的世界理解和伦理理解进行伦理分析。

此外,我们也需要不断对系统的决策过程和推理过程进行审核,以确保其正确地进行了伦理推理。

但要确保系统遵循伦理原则,审核同样重要。

我们需要向系统明确指定应该遵循的伦理原则,并通过对其进行审核来确保系统始终如一地遵循这些原则,至少与一组人类专家一样好。

此外,也要警惕强化学习可能带来的潜在危险,因为过度强化可能导致系统学习欺骗性行为。

对是否需要建立一种框架,以在系统达到一定能力水平时制定具体的安全标准这个问题上,Shane Legg认为这是意义的,但也相当困难。

因为制定一个具体标准,本身就是一个具有挑战性的任务。

04 安全还是性能?

在DeepMind创立之前,Shane Legg就一直担心AGI的安全性。

但在早期,聘请专业人员从事通用人工智能安全工作是一项艰难的挑战。

即使曾在这个领域发布过AGI安全性研究论文,他们也不愿意全职从事这项工作,因为他们担心这可能会对他们的职业生涯产生影响。

而DeepMind一直在这个领域积极开展研究,并多次强调了AGI安全性的重要性。

关于DeepMind对AI进展的影响,Shane Legg表示,DeepMind是第一家专注于AGI的公司,一直拥有AGI安全性团队,同时多年来发表了许多关于AGI安全性的论文。

这些工作提高了AGI安全性领域的可信度,而在不久之前,AGI还是一个较为边缘的术语。

Shane Legg承认,DeepMind在某种程度上加速了AI的能力发展,但也存在一些问题,例如模型幻觉。

但另一方面,DeepMind的AlphaGo项目确实改变了一些人的看法。

然而,Shane Legg指出AI领域的发展不仅仅取决于DeepMind,其他重要的公司和机构的参与也至关重要。

Shane Legg认为尽管DeepMind可能加速了某些方面的进展,但很多想法和创新通常在学术界和工业界之间自然传播,因此很难确定DeepMind的影响程度。

但在关于AGI安全性的问题上,Shane Legg没有选择最乐观的研究方向,而是提到了一种名为「Deliberative Dialogue」的决策方法。

它旨在通过辩论来评估代理可以采取的行动或某些问题的正确答案。

这种方法可以将对齐扩展到更强大的系统中。

05 AGI来临的时间点

2011年,Shane Legg在自己的一篇博客文章中对通用人工智能(AGI)到来的时间点进行了预测:

「我之前对AGI何时到来做一个对数正态分布的预测,其中2028年是均值,2025年是众数。我现在依然保持我的观点,但前提是不发生核战这类疯狂的事件。」

Shane Legg解释了他的预测基于两个重要观点:

首先,机器的计算能力将在未来几十年内呈指数增长,同时全球数据量也将呈指数增长。

当计算和数据量都呈指数增长时,高度可扩展算法的价值会不断提高,因为这些算法可以更有效地利用计算和数据。

其次,通过可扩展算法的发现、模型的训练,未来模型的数据规模将远远超过人类一生中所经历的数据量。

Shane Legg认为这将是解锁AGI的第一步。因此,他认为在2028年之前有50%的机会实现AGI。但那时人们也可能遇到现在预期之外的问题。

但在Shane Legg看来,目前我们遇到的所有问题都有望在未来几年内得到解决。

我们现有的模型将变得更完善,更真实,更及时。

多模态将会是模型的未来,这将使它们变得更加有用。

但就像硬币的两面,模型也可能会出现被滥用的情形。

06 多模态未来

最后,Shane Legg提到了下一个AI领域的里程碑将会是多模态模型。

多模态技术将会把语言模型所具备的理解能力扩大到更广泛的领域中。

当未来的人们回想起我们现在拥有的模型,他们可能会想:「天哪,以前的模型只能算是个聊天对话框,它们只能处理文本。」

而多模态模型可以理解图像、视频、声音,当我们和它们进行交流时,多模态模型将更了解发生了什么。

这种感觉就像是系统真的嵌入到了真实的世界中。

当模型开始处理大量视频和其他内容时,它们将会对世界有一个更为根本的理解,以及其他各种隐含的知识。

,2028年人类将迎来AGI:DeepM刷q币的软件 ind联合创始人长文预测未来AI发展

相关:

ChatGPT之后,维基百科还会存在吗?目前我使用的还是ChatGPT 3.5版本,和本文开头的维基编辑一样,我发现ChatGPT经常满嘴胡说……它不仅经常煞有介事地捏造一些子虚乌有的事实,当你指出它的错误后,它还会瞬间改变自己的回答,尽管再次的回答往往还是错误的。这对于一个编辑来说无疑是很不爽的体验——这时候维基百科就显示出了它与人工智能的不同,尽管在反复的编辑中某些词条自然存在部分争议,但依照“N.P.V.O”的原则,关于事实陈述部分要比ChatGPT靠谱很多..

对话钉钉:如何打造一款超级AI应用?超级应用的关键在于能够整合并取代多个应用,这和大模型的特性天然契合。一个庞大且臃肿的钉钉,要怎么一步步统一体验,进而搭上大模型快车?这是一年多前钉钉所面临的产品问题。一年多来,钉钉产品架构上发生过多次取舍、删减以及重构,今天在智能化的课题中,钉钉似乎再次变得性感起来。钉钉的基本面是ToB,但又很要求用户体验。“客户是ToB的,用户是ToC的,钉钉天然同时有ToB和ToC两种属性,B端员工用钉钉,也有ToC的体验和..

“暴利”短剧,8天过亿?新视界凤凰网科技 《新视界》出品作者|李萌编辑|蒋浇短剧的风愈吹愈烈。每集一两分钟,成制作本不到50万,“三无剧组”《无双》上线8天,充值破1亿元;咪蒙再创业之旗下达人 「姜十七」主演的《夜班日记》播放量破10亿;在腾讯视频上线的《拜托了,别宠我》分账票房破3000万;只有三集的《逃出大英博物馆》刷爆微博热搜。图|短剧《招惹》片段狗血俗套的剧情、简单的充值付费,加上短视频用户基数庞大,前两年曾被业内群嘲的短剧,..

王传福搞的智能驾驶,真不是忽悠吗?如果要评选当下最烈火烹油的智能电动车技术,“自动驾驶”,一定是当仁不让的前三名。在中国造车新势力娴熟的洗脑营销手段下,“自动驾驶”在社会公众面的曝光量达到了前所未来的高度。而且,中国造车新势力在 PPT 层面对“自动驾驶”的大肆宣传,非常容易让不明就里的吃瓜群众产生一种错觉:这项曾经高精尖的黑科技,开了天眼的中国新势力们,只花了一个晚上就学会了。更关键的是,他们不仅学会了,还敢在百年跨国车企面前,..

滴滴公布三季度业绩:营收514亿元 利润方面亏损3亿元凤凰网科技讯 11月13日,滴滴今日发布2023年三季度业绩报告。三季度滴滴实现总收入514亿元,同比增长25%,创历史新高。其中,中国出行实现收入466亿元,同比增长27%;国际业务实现收入20亿元,同比增长28%。利润方面,三季度滴滴经调整EBITA亏损3亿元,其中,中国出行经调整EBITA盈利15亿元。滴滴在三季度核心平台总单量达到35.79亿单,同比增长34%。其中,中国出行总单量为28.78亿单,同比增长32%;国际业务总单量为7.01亿单,..

这场双11,只是消费过剩编辑|史婉嘉还有不到4小时,留给双11的时间不多了。双11作为一个穿越多周期的观测样本,给我们创造的惊喜无数,留下深思的问题甚多。今年注定是一场再普通不过的双11,但它所反映出的国内消费现状,以及每个企业家心头若隐若现的焦虑感,无时无刻不在提醒我们:没有风的时候,就是逆风。在一个结构性调整的周期里,当大促“穷”得只剩全网最低价,消费主义还能带领我们走多远?无论这是不是一个登峰造极的双11,无论你在钟声敲..

张一鸣花90亿为马化腾试错在张一鸣下达PICO裁员指令后,马化腾的VR梦也有了新进展。据外媒近日爆料,腾讯与Meta已达成初步协议,腾讯将成为Meta VR头显在中国的独家销售商,正式开售时间定于2024年底。对此消息,截至发稿,腾讯暂未回应。2021年竞价PICO不敌字节后,腾讯曾一度希望通过收购黑鲨走上VR自研道路。但在元宇宙风口衰退后,腾讯率先放弃自研思路,开始走上轻资产的代理路线。相比马化腾,背负着PICO这项重资产的张一鸣,正在经受更大的阵痛。..

这玩意儿想挑战iPhone,还欠点火候作者|王一鹏Humane 公司的合伙人伊姆兰,站在 TED 讲台标志性的红圈里,看着台下面无表情、默不作声的听众,渐渐意识到事情有些不太对劲。太沉默了。他的演讲已经开始了两分钟,展示了颇有未来感的激光投影和手势交互,但现场没有出现任何预期中的掌声和欢呼。他为苹果公司工作了 22 年,理应对乔布斯那些历史性的发布会印象深刻。他参与设计了 Mac、iPhone、Apple Watch 等一系列苹果最成功的移动设备,十分熟悉如何讲..

OpenAI也要做硬件,还说这玩意是AI时代的iPhone先让我吐槽一句,最近的 AI 圈儿的新闻,是真叫一个多。先有马斯克官宣 Gork AI ,后又有 AI 圈 “ 春晚 ” —— OpenAI 首届开发者大会。这还没消停隔几天,差评君又被一个名叫Ai Pin 的硬件给刷屏了。推出这产品的,是一家名叫 Humane 的美国公司,包括微软、 OpenAI 等巨头,都是背后的金主爸爸。Ai Pin 粗看起来,则小巧轻便,就像个徽章一样,可以戴在包上、衣服上等任何你能想得到的地方。而且它还砍..

第一个AI原生硬件,与背后OpenAI的“系统”野心AI Pin发布了,和OpenAI 开发者大会背靠背。这是一个可以佩戴到胸前的、比手掌还小的智能硬件,发布者称可以独立于手机,可以通话、照相、拍视频,回答用户的各种问询。发布公司叫Humane,联合创始人Imran Chaudhri是一位在苹果工作了20多年的设计师,另一位联合创始人Bethany Bongiorno曾担任苹果公司软件工程总监。AI Pin没有屏幕,可以通过语音、触觉和手势与用户交互。如果一定要看点什么,会有一束激光,把简短的内容..