挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

2023-10-11 01:56:11 来源:网络

看看这张图中有几个房子?如果你回答3个,就和GPT-4V的答案一样。

但是最新开源的国产多模态模型CogVLM-17B,就能看出另有玄机。

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

甚至能区分在图中完整可见的有3个和部分可见的有1个。

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

CogVLM由清华和智谱AI合作开发,通讯作者为唐杰和丁铭,论文和开源代码已上传到GitHub。

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

除这个单独案例之外,CogVLM-17B还在10项权威跨模态基准上取得了SOTA性能。

另外在VQAv2, OKVQA, TextVQA, COCO captioning取得第二,超越或匹配谷歌的PaLI-X 55B。

与之前的开源多模态大模型相比,可以算是14边形战士。

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

雷达图中包含13个基准,最后一个TDIUC单独展现。

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

CogVLM可以回答各种类型的视觉问题,比如从马斯克的阴阳怪气中推理出小扎假装去旅行了,回避约架。

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

认出照片中的C罗,并回答他在2018年世界杯中有多少进球。

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

带图的编程题也能给出代码了。

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

甚至能完成复杂的目标检测,并打上标签,自动数据标注成了。

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

从浅层对齐到深度融合

CogVLM模型包含4个基本组件

ViT编码器

MLP适配器

大型预训练语言模型

视觉专家模块

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

其中,每层中都添加了可训练的视觉专家模块,以实现图像特征和文本特征的深度对齐,而不会牺牲任何NLP任务的性能。

之前主流的浅层对齐方法,如BLIP-2,图像特征和语言模型之间缺乏深度融合,导致性能不佳。

但微调语言模型的全部参数又会损害其NLP能力。

CogVLM的方法可以说是改变了视觉语言模型的训练范式,从浅层对齐转向深度融合。

另外值得注意的是,CogVLM训练数据中没有专门的OCR数据,但表现出了很强的文字识别能力。

CogVLM开源并给出了在线试玩。

挑战GPT-4V!清华开源多模态14边形战士问世:在线可玩

不过目前仅支持英文,后续会提供中英双语版本支持,可以持续关注。

试玩地址:http://36.103.203.44:7861

开源及论文地址:https://github.com/THUDM/CogVLM

,挑战GPT-4V!清华碳水化合物食物一览表 开源多模态14边形战士问世:在线可玩

相关:

人工智能时代:为何强监管是关键?我们有理由相信,人类将能够引导这场科技革命走向更加明亮、公正和有益的未来。想象一下,有一个超级助手,它能在瞬间为你推荐理想的餐馆,解答复杂的问题,甚至为你创作动听的歌曲。没错,那就是人工智能——我们时代的神奇之力,在短短的时间内闯入各个行业,宛如“超级英雄”般为我们创造了前所未有的价值。与此同时,人们对人工智能的担忧也悄悄累积。它会不会误传假消息?我们的工作还安全吗?它会不会在未来某一天,突然宣..

卡德罗夫公开支持巴勒斯坦,或派遣部队打击麻烦制造者车臣领导人卡德罗夫10月10日在自己的电报账号上发布声明称,“我呼吁国际社会至少就巴勒斯坦局势发出一份公正的决议。我呼吁穆斯林国家的领导人建立一个联盟,并叫上你们的那些所谓的朋友,欧洲和整个西方,这样他们就不会以消灭武装分子为借口而轰炸平民。”卡德罗夫表示,“我们支持巴勒斯坦。我们反对这场战争,因为它与其他冲突不同,可能会发展成更多的冲突。”卡德罗夫强调,“我本人也去过以色列,我们的和平代表团亲身经..

巴以冲突持续,这一点值得关注本轮巴以冲突持续升温,引发国际社会广泛关切,在10月9日的外交部记者会上,22个提问中有十余个都与巴以冲突相关。中方对此事的态度,以及中国公民的安全事宜等问题被反复提及。对此,外交部发言人毛宁表示,中方高度关注近来巴以冲突持续升级,对冲突造成平民伤亡感到十分痛心,反对和谴责伤害平民的行为。中方反对扩大冲突,破坏地区稳定的行动,希望尽快停火止战,恢复和平。国际社会应切实发挥作用,共同推动局势降温。毛宁..

接下来,以色列会发动地面战吗?【文/观察者网 王慧、张菁娟】5000枚火箭弹落下,巴以硝烟再起。冲突进入第四天,局势不断升级,截至目前,双方已有1600人死亡。据以色列《国土报》报道,以色列国防军(IDF)证实,以色列方面超900人死亡、2400人受伤;巴勒斯坦卫生部通报,以色列对加沙地带的袭击已造成704名巴勒斯坦人死亡、约3800人受伤。以色列国防部9日宣布,将“全面围困”加沙,让这片地区断水、断电、断粮、断燃料。与此同时,以色列还展开前所未有的..

“大坏狼”送礼物 《坏蛋联盟:坏坏假期》曝剧照《坏蛋联盟:坏坏假期》中五个大反派再次集结 10月10日,据外媒报道,《坏蛋联盟》的特别续集《坏蛋联盟:坏坏假期》公布了剧照,确定将于11月30日上线网飞。《坏蛋联盟:坏坏假期》公布了剧照,确定将于11月30日上线网飞《坏蛋联盟》曾是2022年中国内地引进片票房冠军。影片以开创性的以五个大反派企图想要“金盆洗手”,成为模范公民为开端,“大坏狼”等主角在这个过程中状况百出引起不少笑点。在《坏蛋联盟:坏坏假期》新曝..

抖森新剧《洛基2》海报引发争议 疑似使用AI生成 近日,迪士尼新剧《洛基》第二季开播,虽然播放量和口碑都收获不错的成绩,但也因为第二季的一张海报而引发了争议。有专业设计师声指出海报是由AI参与创作的。插画家卡特里亚·拉登(Katria Raden)在社交媒体上发文声称正式海报背景中的螺旋时钟图像有一些细节毫无意义,这是AI生成图像的典型特征。一些眼尖的网友注意到,这一背景与商业图片交易网站Shutterstock的一张名为“超现实无限时间螺旋空间古董”的图片极其相似。..

制作成本飙升、好莱坞罢工影响…梦工厂裁员70人 近日,据外媒报道,受生产成本上升及好莱坞罢工影响,知名动画工作室梦工厂面临裁员,幅度为全体员工的4%。梦工厂在声明中表示,梦工厂裁减了大约70个职位,这是作为整体成本削减的一部分,受影响的职位涉及公司职能、专题、电视和技术部门。此外,梦工厂还希望通过发行《魔发精灵3》来扭转局面,该片将于11月17日在海外上映。作为好莱坞头部动画工作室,梦工厂制作过多部知名作品,如《怪物史莱克》系列,《马达加斯加》系列..

吕克·贝松将携新片《狗神》惊喜亮相平遥电影展 由吕克·贝松执导,卡赖伯·兰德里·琼斯主演的影片《狗神》(DOGMAN)将作为第七届平遥国际电影展“平遥惊喜”影片,于10月15日在平遥电影宫“站台·露天剧场”进行中国首映。届时,吕克·贝松导演本人也将亲临现场,与平遥电影展观众进行交流。 导演吕克·贝松在全球拥有亿万影迷,包括《这个杀手不太冷》《碧海蓝天》等在内的诸多作品都广为人知,被众多影迷引为影史经典。他曾担任第53届戛纳国际电影节评委会主席,并先后..

传记片《玛利亚》首曝剧照 朱莉饰演高音歌唱家 好莱坞著名女演员安吉丽娜·朱莉主演的传记片《玛利亚》首曝剧照。在剧照中,朱莉化着夸张又复古的妆容,戴着夸张的帽子。从仪态和容貌上看,与原型人物玛利亚·卡拉斯颇有几分相似。对于安吉丽娜·朱莉而言,扮演卡拉斯是一个巨大的挑战。因为卡拉斯不仅外形秀美,而且歌喉美妙。如果要原汁原味地还原人物的话,那么朱莉不仅仅需要模仿人物外形和动作,而且还要接受专业的美声训练。本片由帕布罗·拉雷恩执导,被描述成“一个..

《王冠》第六季定档海报预告双发 将分为上下两部 Netflix发布《王冠》第六季正式海报及定档预告。本季为最终季,将分为上下两部分播出。第一部分定档11月16日,第二部分将于12月14日上线播出。《王冠》第六季上半部海报本季时间线为九十年代末到2000年代初,将聚焦戴安娜之死、查尔斯和卡米拉的婚礼等事件。海报中戴安娜的背影出自她1997年最后一次度假时的经典场景。《王冠》第六季下半部海报该系列从2016年的第一季起,7年间共使用了三套演员阵容,以诠释人物的不同阶段。在..