阿里云CTO周靖人:AI时代,为什么阿里云一定要做开源

2023-09-29 23:19:12 来源:网络

作者 | 宛辰

编辑 | 靖宇

随着 Meta 的 Llama2 开源,开源模型,以及聚集大模型开发者的开源社区,正在发挥不可或缺的作用。

一个例子是,上个月 Hugging Face 得到了谷歌、亚马逊、英伟达、Salesforce、AMD、英特尔、IBM 和高通的共同投资

这些大公司共同出手的原因是:他们的员工正在积极使用 Hugging Face 平台。Hugging Face CEO 德兰格表示,「也许五年后,将拥有大约 1 亿 AI 构建者。如果所有人都整天使用 Hugging Face,我们显然会处于有利位置。」

几个月以来,国内多家大模型厂商开始走开源路径,其中,阿里云是最积极的云厂商。

本周,阿里云开源通义千问 140 亿参数模型 Qwen-14B,以及其对话模型 Qwen-14B-Chat。阿里云同时公布了其 AI 开发者社区——魔搭的最新数据。目前,魔搭社区已有 230 多万开发者,8500 万的模型下载量。据阿里云上季度财报,魔搭社区模型的下载量是 4500 万。也就是说,不到两个月,模型的下载量翻番。

一个半月内,这已经是阿里云第三次推出免费可商用的开源模型。并且,与更大尺寸模型一同开源的,还有技术报告。与预训练、对齐等一系列模型训练过程有关的数据、方法都在报告中得以详细呈现

对此,阿里云 CTO 周靖人表示,这也是今天中国模型社区的第一次,「不单单开源我们的模型,把报告也分享给大家,能够让大家体验到模型各式各样的表现,更有效地帮助大家进行模型的应用。」

同时,他认为,客观地从全方位的维度来衡量一个模型,把各种各样的指标公开,这些可以帮助开发者有效衡量:今天从哪个模型开始,让开发者参与起来。

开源模型在多大程度上开源,这也是开发者最关心的问题,尤其是关于商业使用权和数据集的开放

此前,电气与电子工程师协会 IEEE 网站上,有学者质疑 Llama2 的开源属性。尽管 Meta 已经提供了经过训练的模型,但并未共享模型的训练数据或用于训练模型的代码。虽然第三方能够创建在模型上扩展的应用程序,但想要进一步研究 Llama2 的开发人员和研究人员无法复刻模型。

在这一点上,开源社区和开源模型的开放性需要进一步被讨论。

除了开源,周靖人在日前的 Qwen-14B 发布会上,接受了包括极客公园在内的多家媒体采访,透露了客户侧大模型的演进方向,阿里云闭源、开源两条腿走路背后的思考等问题。

以下为阿里云 CTO 周靖人对话内容,经极客公园整理:

01

目前大模型落地的演化方向——怎么解决领域问题

问:从阿里云与客户的接触来看,目前在通用大模型的落地方面,哪些应用方向需求量较大?

周靖人:把模型真正运用在实际场景里,还是需要有很多二次开发,甚至今天就要结合领域知识。

如何能够解决领域的问题,是今天基础模型比较欠缺的地方。今天在一些特殊领域里,其实有很多专业知识,有很多的专业 know how,需要不断深挖这些领域,把这些核心能力跟比如开源的通义千问 7B 或者 14B 的模型有效地结合在一起,不断加深领域知识,变成这个领域的一个核心模型。

具体还会遇到一些客户场景,客户有一些特殊的数据或者信息,还不便于公开。这时候,可以考虑通过知识增强的方式,prompt engineering(提示词工程),或者做一些记忆的模块,这一系列对整个模型的落地起到至关重要的作用。

不久的将来,也会跟大家分享阿里云在这方面如何把模型的落地做成一个产品,从而有效帮助我们的开发者、ISV,甚至企业能够快速把模型的能力应用在实际的业务场景里面。

问:应用层的反馈,对阿里云有什么启发?

周靖人:今天在模型应用里,可能更多是要做相关的模型拓展。包括今天根据各行各业的知识,或者今天如何能更有效地做相关的 fine-tune(模型精调)。

在工具这一层,我们也收到大家的反馈,不断地去打磨,能够把我们模型的应用做到低门槛,同时更高效。

问:通义千问实现全面开源,面临的最大挑战或困难是什么?

周靖人:讲到模型的应用,不能说今天只做一个 foundation model(基础模型),(基础模型)跟我们实际的应用场景还会有很大距离。怎么能够帮助开发者、企业用好模型,这是今天很重要的一个环节。

图片

来源:视觉中国

我们做开源也是基于这样一个场景,真正实现目标,让 AI 更加普惠。这句话要实现是非常难的,很有挑战,需要我们跟行业伙伴共同合作。

02

客户侧,多大规模的模型,最有优势?

问:Qwen-14B 开源模型与之前的 Qwen-7B 相比,有哪些突破?

周靖人:这两个模型处于不同的量级。今天随着模型参数的增加,模型的整体容量,包括它的能力都有不断地提升。如果直接把 7B 和 14B 这两个模型的级别做比较,14B 模型往往会比 7B 在某些领域,特别是在长尾的领域表现出更强的认知能力,甚至推理能力,包括算术等方面

这两款开源模型,基本上在各自领域,都领先于市场上大家耳熟能详的模型。甚至可以跨级别地做一些比较,千问 14B 的模型比很多更大规模模型的指标都有提升,但它的好处是比这些大的模型更加 compact。也就是说,它在模型微调方面,在模型的应用方面会更有性价比。

魔搭作为一个开源的模型社区,希望给不同的开发者、不同的企业更多的选择。这是在 7B 的规模之上,要开进一步开源 14B 模型的初衷。至于怎么选择,很多时候要结合业务场景。不同的场景可以根据需求选择不一样规模的模型来应用在自己的开发环境里。

图片

Qwen-14B 在十二个权威测评中全方位超越同规模 SOTA 大模型|图片来源:阿里云

问:从模型应用层看,多大规模的模型最有市场,为什么?

周靖人:不能一概而论,这也是我们会提供不同尺寸开源模型的原因。不同企业或者不同场景,涉及到的数据量或者对模型的要求不一样。甚至也跟我们模型服务的成本相关,今天越大规模的模型,固然在推理,在认知能力上更好,但是它的服务成本也会相应提升,在上面去做二次开发,做 fine-tune(模型精调),结合自己的知识增强等等,成本也会不断提升。

每一个企业、开发者实际上要做一个选择,一方面是极致的性能,另一方面是一个极致的成本。他们会根据实际场景问题的复杂度,包括今天调用的频次、相关资源配比的情况,做出符合业务场景的选择。

阿里云认为只有把选择权交给开发者,交给企业,才能更加有效地让我们的 AI 能力落地在各个业务场景里。

03

开源还是闭源?

问:通义千问开源版本和 API 调用两种模式如何平衡,是否是小参数的就开源?什么样的客户选开源,什么样的客户选 API 调用?未来开源、闭源模型会形成什么样的格局?

什么样的模型更适合开源?什么样的模型适合闭源?

周靖人:我们的开源版本,无论是 7B 还是 14B,都会在魔搭社区和 Hugging Face 等同步的开源。另外一方面,也会同步以 API 的形式,在阿里云灵积平台上,提供各种 API 服务。

我觉得还是要回到初衷,如何让 AI 更普惠。应该问,以什么样的方式去支持开发者、企业,能够更加有效地让他们把模型的能力跟自己的业务场景有效结合在一起,去解决实际问题,所以其实不在乎今天到底是开源、闭源。

今天从基础模型到应用场景,还有很长的路。我们希望在做开源的时候,能激发大家在业务创新的各方面突破,(让大家)有更多的自由空间,结合自己的应用场景做更加突破性的创新。只有有更多的创新后,才能让 AI 更好地落地。

问:开源大模型,对闭源大模型相比,有什么样的补充?阿里云平台上,两种不同模型的落地,未来将是一个什么样的比例?哪些客户会更倾向于开源大模型?

周靖人:今天闭源、开源都是一种手段,更多的是今天怎么能够让这些模型快速应用在各种各样的场景里面。即使在闭源里面做产品化,也是为了让今天 AI 的使用门槛更低,让 AI 的能力更加普惠,这是我们的初衷。

但是不同的场景有不一样的需求,一定不是 one size fits all,不是只有一个模型就可以服务所有,也不是只有一种方式。今天阿里云在支持整个魔搭社区的时候,不是只有通义的模型,还有很多开源社区的模型,还有很多合作伙伴的模型。他们的模型在很多方面有很多优势,我们希望大家共同来建设社区,能够真正意义上把模型的能力带到实际场景中。

阿里云在这个过程中间,希望为大家提供基础的支持,不管是算力的支持还是模型服务的支持,这也是为什么阿里云积极参与到模型开源的路径上来。

图片

2023世界人工智能大会,阿里巴巴魔搭社区展台|图片来源:视觉中国

问:阿里云更有兴趣培育开源大模型,还是对大模型之上做应用兴趣更大?

周靖人:我们更有兴趣让 AI 蓬勃发展。今天要让整个 AI 的生态蓬勃发展,只做开源也不行,但不做开源更不行

04

商业化的创新

问:商业化最后是不是还是通过应用挣钱?MaaS 的商业模式如何跑通?

周靖人:今天涉及到模型有价值的服务,不管是通用的服务,还是定制化的服务,甚至一个通用的模型到一个具体的业务场景里,还有一定的技术过程,包括:怎么去收集本地数据、怎么拿一些反馈、怎么能够做一些知识增强,这些中间有很多商业想象的空间。

但我们认为,今天在模型这部分,应该先注重生态,再注重商业化,而不是一开始就过度围绕商业化。把 AI 的社区、开发者的生态,茁壮培养起来,是我们当前所需要共同努力的首要问题。

05

开源技术报告,最大程度开放

问:对于开发者,有什么激励吗?

周靖人:像这次模型的开源,不单单是做模型的开源,同时,还是国内第一个来提供 technical report。这个论文一方面阐述了模型整个研发的过程;另一方面,也最客观地从全方位的维度来衡量一个模型,各种各样的指标都是公开透明的。这些都是帮助开发者有效衡量:今天从哪个模型开始

另一方面,有不少开发者也跟我们提要求,在跟他们积极互动的过程中,我们发现有这样一个生态后,很多开发者可以帮助其他开发者。

另外,今天像通义千问模型,跟阿里云的相关 AI 产品、技术体系是有效联合在一起的。不管是要使用一个模型的服务,还是做 fine tune,做一些知识增强,阿里云都会有一系列产品和技术,帮助开发者进行模型应用。

06

云计算未来的产品形式

问:你觉得未来的云计算会有什么样的新形式?开源模型会不会成为云计算的标配?

周靖人:云计算在这样一个 AI 时代里,肯定在不断变化,不断创新,包括模型的开发、模型的服务,一系列的技术体系在升级。我觉得开源模型会成为我们生态的一部分,但不一定会成为全部

就像今天在大数据里面有很多开源的产品,在数据库里面也有很多开源的产品。但是今天在整个云计算里,有的人会用开源的产品,可能用户自己的技术实力强,会做一些定制的开发;但更多的人会使用的是今天像 PaaS 这样一个产品,也就是说,会基于云计算上面的一系列产品,来进行服务。

模型方面,我认为也会有类似的情况。

07

下一步:被集成,但是要往前多走一步

问:微软的大模型已集成在系统甚至 Bing 里下放给用户,在接近于完成培养用户习惯的阶段,并且行成了用户付费的闭环。阿里云如何看待这一问题?

周靖人:并不是说今天我们做大模型,我们就要把端到端的所有的链路都要由阿里云来提供。站在云的视角,我们希望更多地被集成。也就是说,把模型能力提供给各行各业的服务商、软件商,让他们能够把整体产品技术的体系升级,服务好他的客户。但我们这个过程中间是需要作为云平台,要提前多走一步,希望把技术能力提供给我们的合作伙伴。

图片

图片来源:视觉中国

问:如何建设大模型的开源生态?

周靖人:今天模型的生态一定是要开放公开,有更多人来参与,但也要保持一个求真务实的状态。今天比较客观地评价一个模型的能力,也能让开发者参与起来。

魔搭社区自始至终秉承着公开开放的理念,不管是模型开发者、创业者,还是头部企业,都能通过魔搭社区去触达更多的开发者,把他们的能力分享给社区,社区反过来给一些反馈。

,阿里云CTO周靖人剃须刀哪个牌子的好 :AI时代,为什么阿里云一定要做开源

相关:

对标DALL·E 3!Meta最强文生图Emu技术报告出炉可以说,Meta刚刚发布的Emu,在性能上毫不逊色于DALL·E 3!而Emu取得优异性能背后的原因是「质量调整」。前几天,OpenAI刚刚推出DALL·E 3,文生图再次上升到一个新阶段,甚至有网友纷纷表示R.I.P. Midjourney。在28号的Meta Connect大会上,小扎也推出了自家的人工智能图像生成模型——Emu(Expressive Media Universe)。Emu最大的特点是,只用简单的文字,5秒即生图片。比如:「一只在彩虹森林中的神仙猫咪」。「徒步..

新漫评:美式民主沦为筹码 “关门”危机循环上演美国联邦政府本财年即将于9月30日结束。随着民主、共和两党围绕新财年联邦预算案的争斗陷入僵局,联邦政府因资金耗尽而“关门”的风险不断加剧。如果两党不能在最后时刻达成协议,美国联邦政府将陷入停摆的窘境。据美媒统计,自1976年以来,美国联邦政府已经历21次“关门”。“关门”期间,除了政府最重要的工作人员外,所有人都将被迫休假。据估计,全美国范围内可能多达80万人被迫休假,对整个社会的正常运转将产生负面影响。..

高盛称美国政府“停摆”几率达90%新华社北京9月28日电 美国高盛集团首席经济师兼全球投研部主管扬·哈丘斯预测,美国国会议员难以就新财政年度预算拨款法案达成协议,从10月1日新财年开始之日起,联邦政府部分机构将“关门”两至三周,民主、共和两党最终可能因国防和边检压力而妥协。哈丘斯在27日发布的研报中写道:“今年政府貌似将‘关门’的可能性已延续多月。我们现在认为,政府‘关门’的几率上升至90%。”8月30日,“超级月亮”在美国华盛顿国会上空升起..

普京会见瓦格纳指挥官“白发”最新消息:据俄新社援引克里姆林宫今天(29日)发布的消息报道称,当地时间28日晚,俄罗斯总统普京会晤了瓦格纳组织指挥官、绰号“白发”的安德烈·特罗舍夫,俄罗斯国防部副部长叶夫库罗夫会晤时在场。克里姆林宫方面称,特罗舍夫“目前已为俄罗斯国防部工作”。

美国悬赏500万美元,欲找厄瓜多尔总统候选人遇刺幕后黑手当地时间9月28日,美国国务卿布林肯表示将悬赏500万美元征集线索,以找出杀害厄瓜多尔总统候选人费尔南多·比利亚维森西奥(Fernando Villavicencio)的幕后黑手。厄瓜多尔总统候选人费尔南多·比利亚维森西奥 IC 资料图布林肯还宣布,美国政府将另外悬赏100万美元,鼓励人们提供涉嫌参与此次刺杀行动的组织及主要负责人的信息。布林肯在一份声明中表示:“美国将继续支持厄瓜多尔人民,并努力将那些通过暴力犯罪破坏民主进程..

共和党人失望:这是场彻头彻尾的灾难…【文/观察者网 刘程辉】拜登政府“关门”危机逼近之际,美国两党在另一战场上的争斗同样正酣。当地时间9月28日,由美国共和党领导的众议院监督与问责委员会启动了针对总统拜登弹劾调查的首场正式听证会,重点讨论与弹劾拜登有关的宪法和法律问题,尤其是拜登家族的海外商业联系涉及腐败的指控。尽管监督与问责委员会主席、肯塔基州共和党众议员詹姆斯·科默(James Comer)表示,议员们拥有“大量证据”指向拜登“滥用公职为家..

四川博物院上新常设展 探寻秦汉三国蜀地文明  中新网成都9月29日电 四川博物院29日在成都上新常设展——《古代四川(秦汉三国时期)》。展览作为四川博物院四川历史基本陈列的第三部分,通过馆藏210余件文物,并结合最新考古成果,展示出秦汉三国时期巴蜀风貌。 四川博物院常设展《古代四川(秦汉三国时期)》现场。 四川博物院供图   据介绍,展览分“沃野天府”和“蜀汉风云”两大单元,时间跨度长达五百多年。第一单元“沃野天府”讲述了公元前316年,秦并巴蜀后..

西藏昌都文化旅游主题周活动在天津举行  中新网天津9月29日电 (王在御)“卓卓康巴·传奇昌都”——西藏自治区昌都市文化旅游主题周活动于29日在天津博物馆举行。   该活动由西藏自治区昌都市人民政府、天津市文化和旅游局主办,天津市对口支援西藏工作前方指挥部、天津博物馆、昌都市旅游发展、昌都市文化局承办。 29日,“卓卓康巴·传奇昌都”——西藏自治区昌都市文化旅游主题周活动在天津博物馆举行。王在御 摄   此活动以昌都文化旅游为主体,结合..

银川市发放五千万元金秋惠民消费券  中新网银川9月29日电 (记者 于晶)9月28日晚,宁夏“十一”促消费系列活动暨银川市金秋五千万惠民消费券发放活动在银川文化城举行。   据了解,银川市为了抢抓中秋国庆双节消费黄金期,发放五千万惠民消费券,其中包括汽车消费补贴活动,发放购车补贴1000万元;智能家电及燃气灶具以旧换新消费补贴活动,发放电器消费补贴1000万元;超市惠民消费补贴活动,发放超市惠民消费券1000万元;百货消费补贴活动,发放百货消费券..

陕西汉中:共发现野生朱鹮夜宿地137个 种群数量呈增长态势  陕西汉中朱鹮国家级自然保护区栖息着国内数量最大的野生朱鹮种群。8月初开始,陕西汉中朱鹮国家级自然保护区管理局开展了今年野生朱鹮种群“秋季调查”。调查共发现野生朱鹮夜宿地137个,汉中市境内野生朱鹮种群数量呈增长态势。   秋季是国家一级保护动物朱鹮集群游荡期,此时朱鹮通常集大群活动,是统计野生朱鹮数量的最佳时期。为充分掌握野生朱鹮种群动态,8月初开始,陕西汉中朱鹮国家级自然保护区管理局组织工作人..