530亿参数Baichuan2推理能力飙升100%,首次开放API商用

2023-09-26 22:48:07 来源:网络

原标题:幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用

昨天,Baichuan2-53B正式发布!首次开放API,意味着百川大模型开始正式进军商用了。另外,模型的数学和逻辑推理能力都大幅飙升,对于幻觉的处理,已经在国内遥遥领先。

百川大模型,昨日全面升级!

就在9月25日,百川智能正式发布了全新升级的530亿参数大模型——Baichuan2-53B。

图片

体验地址:https://www.baichuan-ai.com/home

这一次,它的数学和逻辑推理能力显著提升。

更重要的是,通过高质量数据体系和搜索增强,Baichuan2-53B的幻觉大大降低,是目前国内幻觉问题最低的大模型。

不仅如此,作为首批通过备案的大模型企业,百川智能还开放了Baichuan2-53B API接口。

这意味着,百川智能正式进军To B领域,从此将开启商业化进程。

01

幻觉处理,国内遥遥领先

最值得一提的是,新升级的Baichuan2-53B,在「幻觉」处理上已经在国内行业遥遥领先了。

简单讲,「幻觉」就是LLM在没有任何已知事实支撑下,常常会一本正经地胡说八道。

图片

别看GPT-4在多种任务上表现突出,但也无法逃过这一诅咒。

那么,为什么大模型会出现「幻觉」?

4月,OpenAI联合创始人兼研究科学家John Schulman在UC伯克利的演讲中,详细阐述了大模型难以攻克的难题。

在Schulman看来,LLM黑盒内部隐藏着一个「知识图谱」。如果这个架构中没有的知识,仅通过SFT教大模型(即行为克隆)知识,实则在教它输出幻觉。

图片

针对这一难题,百川智能又是如何在大模型的「幻觉处理」上,做到业内领先的呢?

在高质量数据构建上,Baichuan2-53B独创了一套数据质量体系。

以低质、优质为标准将数据进行分类,确保Baichuan2-53B始终使用优质数据进行预训练。

图片

另外,在信息获取方面,Baichuan2-53B对多个模块进行了升级,包括指令意图理解、智能搜索和结果增强等关键组件。

这一综合体系通过深入理解用户指令,精确驱动查询词的搜索,最终结合大语言模型技术,优化模型结果生成的可靠性,实现更精确、更智能的模型回答结果,减少模型幻觉。

比如,在解释「勾三股四弦五」这个问题上,GPT-4显然是在胡说八道。

图片

相比之下,Baichuan2-53B一次就给出了正确的回答。

图片

再比如,「周树人和鲁迅是不是同一个人」这道经典问题,Baichuan2-53B的回答既全面又准确。

图片

可以看到,通过构建高质量数据体系,以及搜索增强技术两个方面的优化,Baichuan2-53B有效降低了模型幻觉。

经过FacTool评测后的结果显示,Baichuan2-53B的综合得分为140.5,在主流基础大模型中仅排在GPT-4之后,处于国内领先水平。

图片

FacTool是由上海交通大学、卡内基梅隆大学、香港城市大学、Meta 等机构学者共同提出的一款通用框架,能够查核大模型生成内容的事实准确性(也能查核一般性内容的事实准确性)。

图片

项目地址:https://github.com/GAIR-NLP/factool

02

能力升级,推理100% up

其实,Baichuan2-53B已经是百川智能发布的第6款大模型了。

4月10日百川智能成立后,就一直在以惊人的速度创新,迭代的速度竟然达到了平均每28天就推出一款大模型!

早在8月8日Baichuan-53B刚发布时,它就表现出了优异的知识问答、文学创作才能。

如果要问,评价一款大模型是否领先的重要指标是什么,相信「数学和逻辑推理能力」,会是诸多业内人士给出的答案。

这次,在Baichuan-53B的基础上,Baichuan2-53B就重点强化了数学和逻辑推理的能力,并且,还对整体能力进行了全面升级。

具体来说,它的逻辑推理能力提升100%,数学能力提升31%,语言理解能力提升29%,文本创作提升18%,知识问答提升9%。

图片

数学推理

数学能力大升级的Baichuan2-53B,做起数学应用题来当然是不在话下。

比如,两个数的和是572,其中一个加数个位上是0,去掉0后,就与第二个加数相同。那么,这两个数分别是?

Baichuan2-53B列出了方程式,假设一个加数是10A,另一个为B,然后根据已知条件,得出正解。

图片

再比如下题中,Baichuan2-53B先计算出来了总运输收入,然后除以每箱玻璃亏损的钱,就得到了损坏的玻璃箱数。

图片

再来个经典的「两地相距多少千米」的问题,Baichuan2-53B通过分步计算,得出了正确答案。

图片

推理方面,先来个简单的问题:天气预报本周三会下雨,昨天果然下雨了,今天是星期几?

Baichuan2-53B毫不费力,直接得出「星期四」!

图片

接下来,推理难度稍微升级一下:假设有一个池塘,里面有无穷多的水。

现有两个空水壶,容积分别为5升和6升。问如何只有这2个水壶,从池塘里取得3升的水?

Baichuan2-53B行云流水地开始作答,6步内给出了正确答案。

图片

经过多轮的测试可以发现,升级后的Baichuan2-53B的数学和逻辑推理能力,果然不可同日而语。在曾经不太擅长的题目上,它都有了大幅提升。

时效问题

而在时效性这方面,Baichuan2-53B的表现可谓十分优异。

杭州亚运会刚刚开幕,年龄最小的选手竟然仅有9岁。Baichuan2-53B在最新的问题上,也答对了。

图片

甚至,Baichuan2-53B准确地解释了,特斯拉刚刚公布的人形机器人Optimus背后神经网络原理。

图片

再比如,今年9月上旬,第80届威尼斯电影节在意大利落幕。

此次电影节,是否有中国电影和演员获奖?

Baichuan2-53B立刻回答出,李鸿其的《爱是一把枪》获得了最佳长片首作,梁朝伟获得了终身成就金狮奖。

图片

梅老板与大巴黎的合约今年6月底到期,在7月正式加盟迈阿密国际。

对此,Baichuan2-53B也是了如指掌。

图片

同样,它还可以准确地告诉你小德一共拿了24次大满贯,包括2023年的这一次。

图片

03

开放API,正式进军商用

不仅如此,这次Baichuan2-53B还正式开放了API接口,可以让企业和开发者将模型集成到自己的应用和服务中。

API地址:https://platform.baichuan-ai.com

这项服务是否有门槛呢?

可以说,几乎没有。Baichuan2-53B的API接口相当便捷易用,只需要简单的配置和集成,就可以接入了。

而且,它对OpenAI的接口高度兼容,这样就可以让客户快速迁移,无论是模型的部署成本还是转换成本,都大大降低。

总之,现在无论是智能客服、智能写作还是智能推荐,都能得到大模型的能力加持。

要说企业用户最关注的,莫过于安全合规问题了。

对此也无需担心。

作为首批通过《生成式人工智能服务管理暂行办法》备案的大模型企业,百川智能为Baichuan2-53B打造了覆盖大模型预训练、精调、推理全周期的安全增强,可以说,全流程都在安全保障之下。

而借助着Baichuan2-53B丰富强大的模型能力,企业用户不仅可以让已有业务升级、减低成本,还能探索更多的应用场景。

可以相信,就在此刻,已经有一大波令人印象深刻的创新,正在土壤中被酝酿了。

,530亿参数Baichuan2推理填补空白 能力飙升100%,首次开放API商用

相关:

美国空军认为应与中方建立热线9月26日,美国空军发言人接受俄新社采访时表示,美方认为与中方建立军事热线以防止太空紧急事件很有意义,但目前双方尚未开始进行此类对话。 该发言人表示:“我可以证实,美国太空军司令萨尔茨曼将军曾公开表示,此类联系渠道很有意义。但我们尚未与中方开始进行此类讨论。”他没有提供更多细节。 8月12日至18日,中共中央军委联合参谋部副参谋长徐起零率团赴斐济出席印太国防军司令会议并访问斐济。会议期间,徐起零副参谋长..

(“一带一路”10周年)“丝路”电影人:冀更多合作拍摄  中新社福州9月26日电 题:“丝路”电影人:冀更多合作拍摄   作者 叶秋云   “十年来,马来西亚与中国合拍了30多部电影。”在福州第十届丝绸之路国际电影节上,马来西亚国家电影发展局主席卡米尔·奥斯曼表示,未来马中还有更多电影合作机会。   卡米尔·奥斯曼说,“一带一路”倡议的提出,为马来西亚与中国以及其他邻国提供了非常好的交流平台;马来西亚参加了每一届丝绸之路国际电影节,展示了很多马来西亚..

流感,你了解多少?这些干货请收下编者按:什么是流感、哪些人容易得流感、如何预防流感……随着秋季到来,流感进入高发期,预防流感,宜早行动,这些知识需掌握。

成达万高速铁路完成首孔移动梁浇筑  记者从成达万高铁公司获悉,9月26日,在成都至达州至万州高速铁路(以下简称:成达万高铁)河水坝大桥建设现场,随着全线首孔移动模架现浇梁浇筑完成,标志着成达万高速铁路全线施工也由线下逐步转为线上。   成达万高速铁路作为全国“八纵八横”高速铁路网中“沿江通道”的重要组成部分,是成渝地区双城经济圈建设的标志性工程之一,也是四川东向出川的重要通道,正线全长477公里,设计时速350公里,建设工期5年。   河..

毛不易手部伤情持续 将缺席原计划工作9月26日,毛不易工作室发文称由于毛不易手部伤情持续,将缺席原计划参加的音乐活动。据悉,在9月22日晚“哇唧唧哇暑假派对2023”演唱会上,毛不易的右手一直揣在风衣口袋中,引发热议。随后毛不易发文回应,表示自己的手受了“一点皮外伤”,“本来不想让大家担心才没有第一时间告知,然而关心的眼睛总是明察秋毫。再次感谢大家,大家也注意安全。”

湖南高院回应向当事人连发240条短信至半夜:技术故障作者 | 陆炎9月26日,湖南高院“向案件当事人连发240条短信直至半夜”事件,有了最新新展:湖南高院公开回复称,此事系湖南高院政务短信平台升级“技术故障”,造成系统重复发送短信;事发后,该技术问题已经得到解决。根据笔者此前发布的文章《“恶意骚扰”维权者?湖南法院向当事人连发240条短信至半夜》:湖南长沙宁乡市女子周小兰,是“因噪音扰民维权,获赔一万元被判敲诈勒索”一案的当事人。从2017年开始,当地每晚有渣..

危险“萝卜刀”一甩“刀片”就出来,再一甩就收回。9月开学以来,玩具“萝卜刀”火了。记者走访重庆多所中小学门口的文具店,发现“萝卜刀”均被摆在显眼的位置,商家们一致表示,“萝卜刀”正值流行、销量可观。但是,商家欢喜家长忧。重庆网络问政平台就收到家长反映称,中小学生聚在一起玩耍“萝卜刀”,喜欢比划着戳来戳去,模仿刺、捅等动作,还有学生将“萝卜刀”带进学校扎堆玩耍,这让家长非常担忧。文具店一天卖出上百把网店销量10万+..

华为卖2W多的大金表,主打的就是性价比01昨天华为开发布会,后台全是问我怎么看那个卖2W多的大金表的,华子的遥遥领先是不是要把我们普通消费者给甩到后面去了?我的看法就是标题,我觉得这款表,主打的就是性价比。不是阴阳怪气,也不是反讽,更不是故意搞暴论,就是普通的陈述句,我觉得很性价比。你肯定不同意啊,你会觉得佛子你疯了吗,这东西还性价比啊。别急,我会认真给你解释,看完你就懂了,而且会对你对于【定价】以及【产品定位】的认知,有质的提升。你不..

华为新专利公布 可通过视觉补偿防止晕车凤凰网科技讯 9月26日,据天眼查App显示,华为技术有限公司申请的“基于视觉补偿图像的防晕车方法、装置和系统”专利公布。图源 天眼查摘要显示,该专利可实时生成视觉补偿图像,图像反映出车辆相对道路(或者地面)的实时运动状态,图像中包括道路和车道线。图源 天眼查该专利将视觉补偿图像显示在车载信息娱乐系统的显示屏上,用户便可在显示屏看到自己相对于地面的运动状态,从而缓解或者消除视觉神经与前庭神经的冲突,解..

报道称机器人开始取代人类保安,应对劳动力短缺挑战站长之家(ChinaZ.com) 9月26日 消息:面对劳动力短缺,安保公司正在积极探索使用机器人来替代人类保安,以应对高换岗率等问题。据财经时报(FT)的报道,安保行业正在寻求利用机器人来解决其一直以来的高换岗率问题。ADT的Ed Bacco表示,机器人可以帮助安保行业提高保安的一致性。他还补充说,当他加入ADT时,看到了在市场上引入机器人的机会。ADT商业部门已投资于机器人公司1X,并正在其监控中心和一些客户位置测试其10台人形..