谷歌夺回AI画语权 机械的想象力达到全新高度

2022-05-24 15:02:12 来源:网络

原标题:谷歌夺回AI画语权,机器的想象力达到全新高度,网友:DALL·E 2诞生一个月就过时了?

在让AI搞创作这件事上,谷歌和OpenAI正面刚起来了。

这不,震惊全网的DALL·E 2才新鲜出炉一个月,谷歌就派出名为Imagen的选手来打擂台。

直接上图对比,左边是谷歌Imagen选手眼中的“猫猫绊倒人类雕像”,右边则是DALL·E 2选手的同题创作。

你觉得哪一位选手的作品更符合题意?

而让网友们直呼“DALL·E 2这就过时了?”的,还不只是这种正面PK的刺激。

看到这么一张照片,如果不说是AI生成的,是不是要先感叹一句两脚兽的摆拍技术越来越高超了?

输入“折纸作品:一只狐狸和一只独角兽在飘雪的森林里”,Imagen创作出的画面则是酱婶的:

还可以试试把文字写得长一点。

比如《一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像,他身后的墙上还有一幅画了鲜花的画》…(啊先让我喘口气)

Imagen也轻松拿下,要素齐全:

看到这,机器学习圈的网友反应是这样的:

不是吧,这才一个月就又更新换代了?

求求别再震惊我了。

这事儿热度一起,很快就破了圈。

吃瓜群众们立刻就想到一块去了。

以后可能没图库网站什么事儿了。

那么这个来自谷歌的新AI,又掌握了什么独家秘技?

具体详情,我们一起接着往下看。

增强「理解」比优化「生成」更重要

文本到图像生成我们之前介绍过不少,基本都是一个套路:

CLIP负责从文本特征映射到图像特征,然后指导一个GAN或扩散模型生成图像。

但谷歌Imagen这次有个颠覆性的改变——

使用纯语言模型只负责编码文本特征,把文本到图像转换的工作丢给了图像生成模型。

语言模型部分使用的是谷歌自家的T5-XXL,训练好后冻结住文本编码器。

图像生成部分则是一系列扩散模型,先生成低分辨率图像,再逐级超采样。

这样做最大的好处,是纯文本训练数据要比高质量图文对数据容易获取的多。

T5-XXL的C4训练集包含800GB的纯文本语料,在文本理解能力上会比用有限图文对训练的CLIP要强。

这一点也有着实验数据做支撑,人类评估上,T5-XXL在保真度和语义对齐方面表现都比CLIP要好。

在实验中谷歌还发现,扩大语言模型的规模对最后效果影响更大,超过扩大图像生成模型的影响。

看到这有网友指出,谷歌最后采用的T5-XXL参数规模还不到最新PaLM语言模型5400亿参数的1%,如果用上PaLM,又会是啥样?

除了语言模型部分的发现,谷歌通过Imagen的研究对扩算模型作出不少优化。

首先,增加无分类器引导(classifier-free guidance)的权重可以改善图文对齐,但会损害图像保真度。

解决的办法是每一步采样时使用动态阈值,能够防止过饱和。

第二,使用高引导权重的同时在低分辨率图像上增加噪声,可以改善扩散模型多样性不足的问题。

第三,对扩散模型的经典结构U-Net做了改进,新的Efficient U-Net改善了内存使用效率、收敛速度和推理时间。

对语言理解和图像生成都做出改进之后,Imagen模型作为一个整体在评估中也取得了很好的成绩。

比如在COCO基准测试上达到新SOTA,却根本没用COCO数据集训练

在COCO测试的人类评估部分也发现了Imagen的一个缺点,不擅长生成人类图像。

具体表现是,无人类图像在写实度上获得更高的人类偏好度。

同时,谷歌推出了比COCO更有挑战性的测试基准DrawBench,包含各种刁钻的提示词。

实验发现,DALL·E 2难以准确理解同时出现两个颜色要求的情况,而Imagen就没问题。

反常识情况,比如“马骑着宇航员”两者表现都不佳,只能画出“宇航员骑着马”。

但是Imagen对“一只熊猫在做咖啡拉花”理解更准确,只错了一次。DALL·E 2则全都把熊猫画进了拉花图案里。

大概“马骑着宇航员”有点反常识(狗头)

大概“马骑着宇航员”有点反常识(狗头)

对于要求图像中出现文字的,也是Imagen做得更好。

除了最基本的把文字写对以外,还可以正确给文字加上烟花效果。

AI画画越来越出圈

说起来,AI作画这件事,最早便源起于谷歌。

2015年,谷歌推出DeepDream,开创了AI根据文本生成图像的先河。

△DeepDream作品

但要说相关技术真正开“卷”、出圈,标志性事件还得数2021年OpenAI的DALL·E横空出世。

当时,吴恩达、Keras之父等一众大佬都纷纷转发、点赞,DALL·E甚至被称为2021年第一个令人兴奋的AI技术突破。

随后,语言理解模型和图像生成模型多年来的技术进展,便在“AI作画”这件事上集中爆发,一系列CLIP+GAN、CLIP+扩散模型的研究和应用,频频在网络上掀起热潮。

从此一发不可收拾,技术更新迭代越来越快。

DALL·E 2刚发布的时候就有网友发起一个投票,问多长时间会出现新的SOTA。

当时大多数人选了几个月1年以上

但现在,Imagen的出现只用了6周

随着AI画画效果越来越强大,受众范围也不断扩大,突破技术圈进入大众视野。

前一阵,就有AI画画应用登上苹果App Store图形与设计排行榜榜首。

现在最新的潮流,是各路设计师排队申请Midjourney、Tiamat等商业化产品的内测,刷爆社交网络。

如此出圈,也给OpenAI和谷歌这样的大公司带来很大压力。

出于AI伦理、公平性等方面考虑,DALL·E 2和Imagen都没有直接开源或开放API。

各自也都在论文里有大篇幅涉及风险、社会影响力的内容。

OpenAI选择了内测模式,而谷歌还在做进一步研究和规范,等到确保AI不被滥用之后再择机公开。

现在想体验Imagen的话,有一个在线Demo演示。

可以从给定的几个提示词中自由组合出不同场景。

快来试试吧~

,谷歌夺回A七律·长征 I画语权 机械的想象力达到全新高度

相关:

狂欢竣事 欧洲最大独角兽Klarna面临裁员、估值下调“当去年秋天我们制定2022年商业计划时,所处的世界与今天截然不同。”金融科技公司 Klarna 联创兼 CEO 在给员工的一封信中写道。今天,Klarna 宣布将裁员10%。该公司目前拥有约7000名员工,裁员10%意味着大约有700人失业,可能涉及全球办公室。据了解,Klarna 设有中国办公室,服务于多家中国 DTC 品牌及电商平台,36氪出海曾对 Klarna 中国区负责人进行过专访报道。在裁员说明中,公司列出了很多宏观及地缘政治因素..

马斯克鼎力举荐Starlink新品:价钱更高,网速更慢?钢铁侠马斯克,他家的星链(Starlink)刚刚又整花活:新出了个房车版(Starlink for RVs)。顾名思义,这个“板子”是给那些开着房车去露营、度假的人准备的。为的就是让他们能在没有信号的偏远地区玩耍时,还能顺畅地上网。(当然,带着它去山里工作……也不是不行)这时候有的友友们就会问了,那我带个天线不也一样吗?马斯克他说了:“天线,太大。”虽然这项星链新的服务看似方便了不少人,但有一说一,它,并不便宜。而且..

拼多多异议拼兜兜商标失踪败 不组成近似商标凤凰网科技讯 5月24日消息,据天眼查App显示,近日,第51096685号“拼兜兜”商标准予注册的商标文书公开。文书显示,上海寻梦信息技术有限公司对德州市一商贸公司申请的“拼兜兜”商标提出异议。商标局经审查认为,被异议商标“拼兜兜”与异议人引证在先注册的“拼多多PINDUODUO”“拼严选”等商标在文字构成、整体外观等方面有一定区别,未构成使用于类似商品上的近似商标,被异议商标的使用不易误导公众,也不会对异议人的利..

冲上热搜!华伦天奴以次充好被罚,进价5千的背提包卖1.7万5月24日,一则华伦天奴以次充好被罚14.24万的话题冲上热搜。据天眼查App显示,近期,华伦天奴关联公司范伦(北京)服饰贸易有限公司朝阳第四分店被北京市朝阳区市监局罚款14.24万元,没收违法所得1.1万余元。行政处罚信息显示,范伦(北京)服饰贸易有限公司朝阳第四分店被检测背提包为2021年6月30日,范伦(北京)服饰贸易有限公司在浦东机场进关,共进口4个,进关后送至范伦(北京)服饰贸易有限公司朝阳第四分店,每个进货均..

年入300亿 米哈游越来越像腾讯不久前,有媒体报道称,米哈游旗下的游戏《原神》“年赚一千亿”,一度让外界感到震惊。但很快,米哈游相关负责人就回应称,该消息与事实严重不符。但“手里有粮”也是真的。不缺钱的米哈游曾经硬气地拒绝腾讯的投资,也在这几年频繁出手跨界投资其他创业公司,先后投资了元宇宙社交产品Soul、核变能源技术开发公司能量奇点、视频云解决方案服务商蔚领时代,不久前还投资了国内民营火箭制造企业东方空间。公开数据显示,米哈游在..

英伟达推出液冷GPU 节约用水和用电IT之家 5月24日消息,据英伟达官方消息,今日,英伟达发布了率先采用直接芯片(Direct-to-Chip)冷却技术的数据中心 PCIe GPU。Equinix 正在验证 A100 80GB PCIe 液冷 GPU 在其数据中心的应用,GPU 现已进入试用阶段,预计将于今年夏季正式发布。据介绍,数据中心运营商旨在淘汰用于冷却数据中心内部气体的冷水机组,因其每年会蒸发数百万加仑的水量。而借助液冷技术,系统仅需对封闭系统中的少量液体进行循环利用,..

郭明錤:苹果AirPods Pro 2将于下半年在越南量产AirPods Pro凤凰网科技讯 北京时间5月24日消息,天风国际证券分析师郭明錤今天发布推文称,苹果AirPods Pro 2无线耳机将于今年下半年在越南量产。郭明錤称,AirPods Pro 2的生产之所以能够转移到越南,是因为它的供应链相对没那么复杂,其他苹果产品则很难做到。而且,和中国以外的大多数国家相比,越南拥有更好的生产环境,例如基础设施和劳动力。他指出,AirPods Pro 2的新产品引入(NPI)环节仍在中国。另外,他还预测..

高通:Wi-Fi 7芯片已向客户出货 终端产物年尾前有望上市IT之家 5月24日消息,据中国台湾地区经济日报报道,今日,高通(Qualcomm)表示,Wi-Fi 7 芯片已出货客户,终端产品今年年底前有望上市,预计 Wi-Fi 7 渗透率将在2023年至2024年达10%。针对“Wi-Fi 7 渗透率何时可达10%”的问题,高通高级副总裁 Rahul Patel 表示,过去发布 Wi-Fi 6 芯片时,外界也关心过同样的问题。IT之家了解到,Rahul Patel 指出,Wi-Fi 7 渗透率会有类似的曲线,预计大多数的顶级 Andro..

收到一个推送后特斯拉ModelY当街起火 车主破窗逃生日前,据报道,加拿大一辆特斯拉Model Y在行驶途中当街起火。车主表示,这辆Model Y是他在去年冬季购买的2021款车型,车辆在推送了一个错误通知后便全车断电,随即车内充满了烟雾,被困在车内的他选择将车窗踢破逃生。当地消防部门在汽车开始冒烟后约5分钟赶到,并迅速扑灭了车辆上的明火。从火势剧烈程度、火焰燃烧速度来看,此次事故中动力电池起火的可能性较低。对于本次起火的具体原因,消防部门仍在调查中。值得注意的是..

特斯拉上海工场复工首月:出产2.6万台车 超8000台车出口欧洲作者 | Alice车东西5月24日消息,工业和信息化部在其官方微信公众号工信微报显示,截至5月19日,特斯拉上海工厂复工以来,累计实现整车下线2.6万辆。工信微报还显示,目前多省市正全力保障汽车产业链供应稳定畅通,多家车企产业链、供应链逐步恢复稳定。▲工信微报报道截图此外,1200多家汽车零部件企业也已复工复产。供应链逐步恢复也有助于特斯拉等车企进一步提高产量。上海是我国汽车产业的重镇,汽车产量约占全国产量的11%..