OpenAI发布GPT-4:能识图能算税,ChatGPT摆脱Chat,再次进化

2023-03-15 08:13:26 来源:网络

文|VickyXiao 编辑| VickyXiao

离发布仅仅四个多月,在ChatGPT展现了惊人的实力之后,OpenAI又扔下了一颗核弹:

GPT-4发布了。

在今天的博文中,OpenAI写到:

我们创建了GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。

好像和上一代还是差不多?放心,这是OpenAI谦虚了。

在随后YouTube上进行的Live Demo中,OpenAI的总裁和联合创始人Greg Brockman展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的, GPT-4轻松拿下。

但这仅仅是表面,GPT再一次进化,虽然可能不是你想的那样。

新的模型:迭代优化

怎么样证明一个人比另外一个人更厉害?考试。

那怎么证明一个AI模型比另外一个更厉害?同样是考试。

OpenAI让GPT-4在参加了许多项人类的通用考试,结果证明,它在许多测试和基准测试中的表现比前一代确实大大提高:

根据他们的测试结果,GPT-4的SAT分数增加了150分,现在能拿到1600分中的1410分;

它能通过模拟律师考试,分数在应试者的前10% 左右,相比之下,GPT-3.5的得分在倒数 10% 左右;

在SAT阅读考试中和SAT数学考试中,GPT-4的成绩都能达到领先的排名……

“我们花了6个月的时间使用我们的对抗性测试程序,以及在ChatGPT身上累积的经验教训来迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。”OpenAI称。

“我们的 GPT-4 训练运行(至少对我们而言!)前所未有地稳定,成为第一个我们能够提前准确预测其训练性能的大型模型。”

此外,GPT-4还有了一个质的飞跃——可以开始处理图像。

经常使用ChatGPT的人肯定知道,它只能处理文本,但GPT-4开始接受图像作为输入介质。

在OpenAI提供的一个示例中,GPT-4准确地回答了几个网络meme为什么搞笑的问题(虽然解释得并不好笑)。

图源:《纽约时报》

在《纽约时报》提供的案例中,同样可以看出GPT-4可以同时解析文本和图像,这也使它能够解释更复杂的信息。不过,目前图像输入的权限尚未公开,所以目前还没看到更多例子来证明GPT-4在图像方面的处理能力。

在随后举行的Live Demo中,OpenAI也表示,还没有公开提供这部分技术,但已经在和一家名为Be My Eyes的公司进行合作,对方会使用GPT-4来构建服务。

此外,GPT-4已经开始具备一点点的幽默感。它已经可以讲出一些模式化的、质量不咋样的冷笑话——但是,至少它已经开始理解“幽默”这一人类特质。

图源:《纽约时报》

图源:《纽约时报》

当然,更多的方面,GPT-4的改进是迭代性的。在随意的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。但是,当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令,可以更准确地解决难题。

比如说,北卡罗来纳大学教堂山分校的医学副教授兼心脏病专家Anil Gehi就向GPT-4描述了他一天前看过的一位患者的病史,包括患者术后出现的并发症被送往医院,描述中包含几个外行人无法识别的医学术语。

当Gehi医生问GPT-4应该如何治疗病人时,GPT-4给了他完美的答案。“这正是我们对待病人的方式,”Gehi医生说。当他尝试其他场景时,GPT-4给出了同样令人印象深刻的答案。

当然另外一个好消息是,GPT-4对于英语以外的语种支持也得到了大大的优化。

许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言上的能力,OpenAI使用 Azure Translate,将一套涵盖57个主题的1.4万多项选择题的MMLU基准,翻译成了多种语言,然后进行测试。

在测试的26种语言中,有24种语言,GPT-4优于 GPT-3.5和其他大语言模型的英语语言性能。

其中中文达到了80.1%的准确性,而GPT-3.5的英文的准确性为70.1%,也就是说,在这个测试中,GPT-4对于中文的语言理解,已经优于此前ChatGPT对于英文的理解。

Live Demo:报税、写诗、写代码,无所不能

如果说着这些数据、案例,似乎还难以让人直观感受到GPT-4的真正实力,那么OpenAI的总裁和联合创始人Greg Brockman,就亲自在YouTube上进行了一把直播,来实时演示Live Demo中,展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的, GPT-4轻松拿下。

Greg Brockman展示了GPT-4的新的使用界面,左侧是系统框,可以规定AI的角色,以及整体的回答原则,中间则是对话框,可以输入具体的对话形态来对具体的内容进行调整、追问或者给出反馈。最右侧是一些参数设置。

在演示中,Brockman就使用使用左侧的“系统”框,让GPT-4相继成为“ChatGPT”、“AI编程助手”、“TaxGPT”,来解决不同的问题。

ChatGPT模式下,GPT-4可以处理超过2.5万字的文本,可以轻松地总结一篇超长文章的核心内容,比如把OpenAI今天发布的这篇讲述GPT-4的雄文总结要点。

甚至还可以像在演示中的那样,以各种奇怪的形式来提炼它——比如,以全是“G字母开头”的单词来总结。

或者要它把这些内容要点写成一首诗。

在“AI编程助手”模式下,还可以让它轻松写代码,生成一个网站,或者更复杂的,写一个基于Discord的机器人,如果出现错误,比如要调用比较新的API而出错,甚至也不需要向它解释,而是把错误代码复制进去,它就会自动纠错,生成新的代码。

或者要它变身成TaxGPT,要它基于税务法则,来计算出一对夫妻要缴纳多少税,而且还要把计算理由一步步写出来,让人们可以检阅。

对于GPT-4展示出的专业能力,Greg Brockman大为赞赏,他表示那段税务文件,他自己读了半个小时也没有搞懂,然而GPT-4却可以很快给出答案。

或许这段不到一个小时的演示,才真正道出了GPT-4的强大之处——它不再仅仅是普通用户的“聊天机器人”,而将成为开发者手中的利器,在文本、编程、税务以及更多可以想见的领域,成为强大工具的开发基石。

从这一点来说,它比ChatGPT带来的影响,将更加广泛。

满嘴跑火车:还在跑,但是好一点

不得不提的是,尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性。最重要的是,它仍然不完全可靠——它仍然会大胆自信地编造事实,并且会出现推理错误。OpenAI强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。

在GPT-4公告中,OpenAI强调该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了 82%,产生真实事实的可能性提高了 40%,优于 GPT-3.5。”

这也意味着, GPT-4 相对于以前的模型来说,还是显著地减少了一本正经胡说八道的频率,而且用户千方百计提示它以让它说出被禁内容的成功率,也小了很多。

但是,这并不意味着系统不会出错或输出有害内容。例如,微软透露其Bing聊天机器人其实一直由GPT-4提供支持,但许多用户还是能够以各种创造性的方式打破 Bing的护栏,让机器人提供危险的建议、威胁用户和编造信息。

此外,GPT-4仍然是基于2021年9月之前的数据训练的,这也意味着它和前一代一样,仍然缺乏对于2021年9月之后的数据的有效理解。

“GPT-4 仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”OpenAI表示。

应用:面向开发者,越来越贵

当然,除了表现方面,还有一个明显的不同是,ChatGPT-4比以前的版本“更大”,这意味着它已经接受了更多数据的训练,因此运行起来也更加昂贵。OpenAI 只表示它使用了微软Azure来训练模型,但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

这也意味使用它的成本越来越高。与ChatGPT不同的是,这个新模型目前还不能免费公开测试,虽然它鼓励开发者申请试用,但是将需要上等待名单。

新模型将提供给ChatGPT的付费用户ChatGPT Plus(每月20美元),也将作为API的一部分提供,允许开发者付费将AI集成到他们的应用程序中。OpenAI表示,多家公司已经将GPT-4集成到他们的产品中,包 Duolingo、Stripe和Khan Academy等。

当然,如果你不是开发者或者付费用户,但是实在是想尝尝鲜,微软的Bing会是最好的选择——Bing的AI聊天机器人,过去六周以来,已经开始使用GPT-4了。

你感觉到了吗?

*参考资料:除去特别说明,本文图片均来自OpenAI官网和演示视频,版权归OpenAI所有

注:封面图来自于Pexels,版权属于原作者。如果不同意使用,请尽快联系我们,我们会立即删除。

,OpenAI发布GPT-4:能识图能算税,研究生毕业登记表自我鉴定 ChatGPT摆脱Chat,再次进化

相关:

Meta再度宣布大裁员 一万人将受影响中新社旧金山3月14日电 当地时间14日,美国Meta公司再度宣布大规模裁员,约1万名员工将受影响。Meta首席执行官马克·扎克伯格当日在Facebook平台表示,公司管理层将在接下来的几个月宣布重组计划。本轮重组计划的重点是扁平化公司组织,取消优先级较低的项目,并降低招聘率。公司将于4月底宣布技术部门的重组和裁员计划,商务部门的变动计划将于5月底宣布。总体而言,公司希望将团队规模减少约1万人,另有大约5000个空缺职位将..

苹果加大力度削减成本:推迟发放奖金 限制招聘苹果CEO库克凤凰网科技讯 北京时间3月15日消息,知情人士称,苹果公司推迟了一些企业部门的奖金发放,并加大了成本削减力度,像其他硅谷同行一样试图在不确定时期精简运营。苹果的这一调整将降低部分企业员工发放奖金的频率。此外,该公司正在限制招聘更多职位,并在员工离职时让更多职位保持空缺。过去,苹果通常会根据部门的不同每年发放一到两次奖金并提供升职机会,一年两次的部门通常在4月和10月兑现。但是根据新计划,这..

谷歌的又一波反击!开放大语言模型PaLM API机器之心报道编辑:小洲事到如今,OpenAI 的 ChatGPT 在 AI 社区的统治地位已经无需多言。特别是 OpenAI 开放 ChatGPT 的 API 之后,在开发者社区掌握了极大的话语权。反观谷歌那边,在第一波发布 Bard 失利之后,一直处于沉默状态。但在今日,谷歌组织了第二波反击:开放自家的大语言模型 API 「PaLM API」,此外今天谷歌还发布了一款帮助开发者快速构建 AI 程序的工具 MakerSuite。谷歌表示,此举是为了帮..

2023年安卓之光!小米13 Ultra曝光:支持可变光圈3月15日消息,博主数码闲聊站暗示,小米13 Ultra支持可变光圈。MIUI团队专门为这个功能开发了控制面板,新品预计在4月份前后登场。据悉,光圈是一个用来控制光线透过镜头,进入机身内感光面光量的装置,可变光圈借鉴了相机镜头可调节光圈的优势,通过光圈调节,可在不同场景下获得较好的照片效果。对于相机摄影爱好者来说,应该都知道大部分镜头都支持光圈的调节,而他们在拍摄时也并不是全部开启大光圈模式,实际拍摄也会根据..

消失的元宇宙,扎克伯格的野心哪去了?扎克伯格不再大谈元宇宙凤凰网科技讯 北京时间3月15日消息,大约一年前,脸书母公司Meta CEO马克·扎克伯格(Mark Zuckerberg)还在滔滔不绝地谈论元宇宙,声称这不亚于整个公司的未来。为了凸显这一雄心壮志,他把公司名字都改了。而如今,当他再次公开讲话时,元宇宙这个词已经难寻踪迹。周二,扎克伯格发表裁员信,宣布裁减1万人。在他的2000多字文章中,元宇宙只提到了两次,其中很多都是专注于公司的未来。他四次提到人工..

更强更可靠!OpenAI公布GPT-4:可在考试中超过90%的人类财联社3月15日讯(编辑 夏军雄)当地时间周二(3月14日),人工智能研究公司OpenAI公布了其大型语言模型的最新版本——GPT-4。该公司表示,GPT-4在许多专业测试中表现出超过绝大多数人类的水平。OpenAI于2020年发布了GPT(生成型预训练变换模型)-3(生成型预训练变换模型),并将其与GPT-3.5分别用于创建Dall-E和聊天机器人ChatGPT,这两款产品极大地吸引了公众的关注,并刺激其他科技公司更积极地追求人工智能(AI)。OpenAI..

“死磕”性能还是另辟蹊径?看安卓手机如何硬刚iPhone在当前智能手机两大阵营中,苹果拥有强大的品牌号召力,还有超高能效比的自研芯片,几乎是无敌的存在。不过笔者是忠实的安卓用户,第一台正式拥有的手机就是安卓机。安卓向来以更丰富的功能和可玩性吸引用户,这也使得笔者一直坚守安卓阵容。无奈在性能上苹果有着近乎违背“摩尔定律”的研发水平,安卓阵营在目前没有相同能力的情况下只能望洋兴叹。但在笔者看来安卓阵营并未坐以待毙,高通从来没有放弃过追赶,最新的骁龙8 Gen..

这场婚礼火了!花160元搭舞台,新娘自己主持……近日,一条“新娘自己主持婚礼省下万元”的短视频在网上火了↓ ↓自动播放一张用大红幕布作背景,挂着一个定制的“囍”字,新娘唱着《甜蜜蜜》缓缓上台……这不是文艺电影的开场,而是一个乡村婚礼的开场。25岁的谢女士是一名老师,她的丈夫谭先生是一名公务员,都是重庆云阳人。三年前的一次联谊活动中,他们相识并最终走到了一起。3月8日,两人的婚礼在谭先生的农村老家举行,新娘谢女士说:“我们都是农村人,工作不久也没有..

“长风破浪,未来可期”的信心源自哪 习近平总书记曾谈到:“信仰、信念、信心,任何时候都至关重要。小到一个人、一个集体,大到一个政党、一个民族、一个国家,只要有信仰、信念、信心,就会愈挫愈奋、愈战愈勇,否则就会不战自败、不打自垮。”3月13日,国务院总理李强出席记者会,一句“长风破浪,未来可期”迅速登上热搜。在奋进中国式现代化的开局之年,总理用这8个字概括中国经济前景,既亮明了新一届政府的积极态度,又彰显了中国推进高质量发展的坚定信..

上海“最牛业委会”:向物业追讨4000万理性又专业的业主是小区最宝贵的资源成功换掉物业后,与供应商之间的上百个合同纠纷材料在办公桌上堆成了小山。远远看去,65岁的韩德友,大半个身体都“埋”在里面,同样搭进去的,还有这个年龄本该享有的自由和闲暇。“现在全身心投入到业委会的工作,最终目的就是把4000万元追回来。”韩德友告诉《中国新闻周刊》。一个月前,得知上海市普陀区人民法院的一审判决支持中远物业向中远两湾城返还4000万元,这位业委会主任曾短暂地..