对标DALL·E 3！Meta最强文生图Emu技术报告出炉

2023-09-29 23:18:52 来源：网络

可以说，Meta刚刚发布的Emu，在性能上毫不逊色于DALL·E 3！而Emu取得优异性能背后的原因是「质量调整」。

前几天，OpenAI刚刚推出DALL·E 3，文生图再次上升到一个新阶段，甚至有网友纷纷表示R.I.P. Midjourney。

在28号的Meta Connect大会上，小扎也推出了自家的人工智能图像生成模型——Emu（Expressive Media Universe）。

Emu最大的特点是，只用简单的文字，5秒即生图片。

比如：「一只在彩虹森林中的神仙猫咪」。

「徒步旅行者和北极熊」。

「水下的航天员」。

「在花丛中的一位女士」。

「如果恐龙是一只猫咪」。

与其他文生图模型相比，Emu最有趣的是，可以一键生成表情包。

当你正和人聊天时，不用绞尽脑汁去翻找一个合适的表情包了。

比如，和朋友约好了背包旅行，想要发一个生动的准备去旅行的表情包。

「一只快乐的刺猬骑着摩托车」

选择自己喜欢的一个，发送。

当然了，你可以生成各种各样的表情包，仅需要简单几个词。

很快，任何人都可以在Ins中进行图像编辑——重换风格和背景，背后就是由Emu和分割模型SAM加持。

重换风格，可以根据你所描述的风格，重构想像输出图片。

如下，输入「水彩」，你的照片就立刻变成水彩画了。

或者，把扎克伯格小时候的照片变成「摇滚朋克风格」。

又或者给金毛换一个「长头发」，就得到了：

你甚至可以为图片更换背景。

找到一张自己躺在草坪中的照片，输入「被小狗包围」，一群可爱的小狗就伴你左右了。

又或者，家庭合照中，背景也可以随意切换。

Emu在发布会上可算是风光了一把，但其实在现场演示的前一天，Meta就在arXiv更新了Emu模型的论文。

论文地址：https://arxiv.org/abs/2309.15807

在这篇论文中，Meta介绍了Emu的训练方法：质量调整（quality-tuning），一种有监督的微调。

质量调整解决了在利用网络规模的图像-文本训练文本-图像模型时，生成高度美观的图像面临的挑战：美学对齐。

通过质量调整，可以有效指导预训练模型专门生成具有高度视觉吸引力的图像，同时保持视觉概念的通用性。

研究人员还将其泛用到其他模型架构中，如pixel diffusion和masked generative transformer，证明了质量调整方法的通用性。

质量调整的方法

生成模型的训练包括两个阶段：知识学习和质量学习。

在知识学习阶段，目标是获得从文本生成几乎任何内容的能力，这通常需要在数以亿计的图像-文本对上进行预训练。

而在质量学习阶段，模型将被限制输出高质量和美观的图片。

Meta研究人员将以提高质量和促进审美一致性为目的的微调过程称为质量调整。

经质量调整的Emu生成的图像

但质量调整有三个关键：

（1）微调数据集可以小得出奇，大约只有几千张图片；

（2）数据集的质量非常高，这使得数据整理难以完全自动化，需要人工标注；

（3）即使微调数据集很小，质量调整不仅能显著提高生成图片的美观度，而且不会牺牲通用性，因为通用性是根据输入提示的忠实度来衡量的。

整个质量调整过程有以下几个步骤：

潜在扩散架构

研究人员设计了一种可输出1024 X1024分辨率图像的潜在扩散模型。遵循标准的潜在扩散架构设计，模型有一个自动编码器（AE）将图像编码为潜在嵌入，并有一个U-Net学习去噪过程。

研究发现，常用的4通道自动编码器（AE-4）架构由于压缩率高，往往会导致所构建图像的细节丢失。

而这一问题在小物体中尤为明显。

为了进一步提高重建性能，研究人员使用了对抗性损失，并使用傅里叶特征变换对RGB图像进行了不可学习的预处理，将输入通道维度从3（RGB）提升到更高维度，以更好地捕捉精细结构。

用于不同通道尺寸的自动编码器的定性结果见下图。

此外，研究人员还增加了每个阶段的通道大小和堆叠残差块数量，以提高模型容量。

并且，此研究使用CLIP ViT-L和T5-XXL的文本嵌入作为文本条件。

预训练

研究人员策划了一个由11亿张图像组成的大型内部预训练数据集来训练模型，训练过程中模型的分辨率逐步提高。

在预训练的最后阶段，研究人员还使用了0.02的噪声偏移，这有利于生成高对比度的图像，从而提高生成图像的美感。

构建高质量对齐数据

从最初的数十亿张图片开始，使用一系列自动过滤器将图片数量减少到几亿张。

这些过滤器包括但不限于去除攻击性内容、美学分数过滤器、光学字符识别（OCR）字数过滤器（用于去除覆盖过多文字的图片）以及 CLIP 分数过滤器（用于去除图片与文字对齐度较差的样本）。

然后，通过图像大小和纵横比进行额外的自动过滤。

并且，为了平衡来自不同领域和类别的图片，研究人员利用视觉概念分类来获取特定领域的图片（如肖像、食物、动物、风景、汽车等）。

最后，通过基于专有信号（如点赞数）的额外质量过滤，这样可以将数据进一步减少到200K Human Filtering。

接下来，将数据集分两个阶段进行人工过滤，只保留极具美感的图片。

在第一阶段，训练通用注释器将图片库缩减到20K张。这一阶段的主要目标是优化召回率，确保排除通过自动过滤的中低质量图片。

在第二阶段，聘请精通摄影原理的专业注释员，筛选出高审美质量的图片，如下图。

这一阶段的重点是优化精确度，即只选择最好的图片。数据集遵循高质量摄影的基本原则，在各种风格的图像中普遍获得更具美感的图像，并通过人工评估进行验证。

质量调整

将视觉效果极佳的图像视为所有图像的子集，这些图像具有一些共同的统计数据。

研究人员使用64个小批量数据集对预训练模型进行微调。

在此阶段使用0.1的噪声偏移。但需要注意的是，尽早停止微调非常重要，因为在小数据集上微调时间过长会导致明显的过拟合，降低视觉概念的通用性。

但微调迭代次数不能超过5K，这个总迭代次数是根据经验确定的。

实验结果

质量调整的效果

研究人员将经过质量调整的Emu模型与预先训练的模型进行比较。

质量调整前后的随机定性测试结果见下图。

可以看到非写实图像也具有很高的美感，这验证研究提出的假设：在质量调整数据集中遵循某些摄影原则，可以提高各种风格的美感。

从数量上看，经过质量调整后，Emu在视觉吸引力和文本可信度方面都有显著优势。

具体来说，在Par-tiPrompts和OUl Prompts上，分别有 82.9% 和 91.2% 的视觉吸引力以及 36.7% 和 47.9% 的文本忠实度首选Emu。

相比之下，在视觉吸引力方面，预训练模型分别只有15.4% 和 7.9%的时间受到青睐，而在文字忠实性方面，PartiPrompts和OUl Prompts分别有 21.0% 和 18.5% 的时间受到青睐。

其余案例的结果均为平局。从这两组涵盖不同领域和类别的大量评估数据中视觉概念的通用性没有下降。

相反，这些改进广泛适用于各种风格。

SoTA 背景下的视觉吸引力

为了将Emu生成的图像的视觉吸引力与当前最先进的技术进行比较，研究人员将Emu与SDXLV1.0进行了比较。

可以看到，Emu比 SDXLv1.0 的视觉吸引力高出很多，包括在风格化（非写实）提示上。

并且，Meta证实了质量调整也可以改进其他流行的架构，如pixel diffusion和masked generative transformer。

研究人员从头开始重新实现和训练一个pixel diffusion和masked generative transformer，然后在 2000 张图像上对它们进行质量调整。

之后，研究人员在1/3随机抽样的PartiPrompts上对这两种经过质量调整的模型进行了评估。

如下图所示，经过质量调整后，两种架构在视觉吸引力和文本忠实度指标上都有显著改善。

消融研究

最后，Meta对微调数据集进行了消融研究，重点关注视觉吸引力，主要对数据集大小的影响进行研究。

下表中报告了在不同大小的随机抽样子集上进行的质量微调的结果，包括100、1000和2000的大小。

可以看到，即使只有100个微调图像，模型也能够被引导生成视觉上吸引人的图像。

与SDXL相比，微调后的胜率从24.8%跃升至了60%。

,对标DALL·E 3！剃须刀品牌 Meta最强文生图Emu技术报告出炉

相关：

新漫评：美式民主沦为筹码 “关门”危机循环上演美国联邦政府本财年即将于9月30日结束。随着民主、共和两党围绕新财年联邦预算案的争斗陷入僵局，联邦政府因资金耗尽而“关门”的风险不断加剧。如果两党不能在最后时刻达成协议，美国联邦政府将陷入停摆的窘境。据美媒统计，自1976年以来，美国联邦政府已经历21次“关门”。“关门”期间，除了政府最重要的工作人员外，所有人都将被迫休假。据估计，全美国范围内可能多达80万人被迫休假，对整个社会的正常运转将产生负面影响。..

高盛称美国政府“停摆”几率达90%新华社北京9月28日电美国高盛集团首席经济师兼全球投研部主管扬·哈丘斯预测，美国国会议员难以就新财政年度预算拨款法案达成协议，从10月1日新财年开始之日起，联邦政府部分机构将“关门”两至三周，民主、共和两党最终可能因国防和边检压力而妥协。哈丘斯在27日发布的研报中写道：“今年政府貌似将‘关门’的可能性已延续多月。我们现在认为，政府‘关门’的几率上升至90%。”8月30日，“超级月亮”在美国华盛顿国会上空升起..

普京会见瓦格纳指挥官“白发”最新消息：据俄新社援引克里姆林宫今天（29日）发布的消息报道称，当地时间28日晚，俄罗斯总统普京会晤了瓦格纳组织指挥官、绰号“白发”的安德烈·特罗舍夫，俄罗斯国防部副部长叶夫库罗夫会晤时在场。克里姆林宫方面称，特罗舍夫“目前已为俄罗斯国防部工作”。

美国悬赏500万美元，欲找厄瓜多尔总统候选人遇刺幕后黑手当地时间9月28日，美国国务卿布林肯表示将悬赏500万美元征集线索，以找出杀害厄瓜多尔总统候选人费尔南多·比利亚维森西奥（Fernando Villavicencio）的幕后黑手。厄瓜多尔总统候选人费尔南多·比利亚维森西奥 IC 资料图布林肯还宣布，美国政府将另外悬赏100万美元，鼓励人们提供涉嫌参与此次刺杀行动的组织及主要负责人的信息。布林肯在一份声明中表示：“美国将继续支持厄瓜多尔人民，并努力将那些通过暴力犯罪破坏民主进程..

共和党人失望：这是场彻头彻尾的灾难…【文/观察者网刘程辉】拜登政府“关门”危机逼近之际，美国两党在另一战场上的争斗同样正酣。当地时间9月28日，由美国共和党领导的众议院监督与问责委员会启动了针对总统拜登弹劾调查的首场正式听证会，重点讨论与弹劾拜登有关的宪法和法律问题，尤其是拜登家族的海外商业联系涉及腐败的指控。尽管监督与问责委员会主席、肯塔基州共和党众议员詹姆斯·科默（James Comer）表示，议员们拥有“大量证据”指向拜登“滥用公职为家..

四川博物院上新常设展探寻秦汉三国蜀地文明　　中新网成都9月29日电四川博物院29日在成都上新常设展——《古代四川(秦汉三国时期)》。展览作为四川博物院四川历史基本陈列的第三部分，通过馆藏210余件文物，并结合最新考古成果，展示出秦汉三国时期巴蜀风貌。四川博物院常设展《古代四川(秦汉三国时期)》现场。四川博物院供图　　据介绍，展览分“沃野天府”和“蜀汉风云”两大单元，时间跨度长达五百多年。第一单元“沃野天府”讲述了公元前316年，秦并巴蜀后..

西藏昌都文化旅游主题周活动在天津举行　　中新网天津9月29日电 (王在御)“卓卓康巴·传奇昌都”——西藏自治区昌都市文化旅游主题周活动于29日在天津博物馆举行。　　该活动由西藏自治区昌都市人民政府、天津市文化和旅游局主办，天津市对口支援西藏工作前方指挥部、天津博物馆、昌都市旅游发展、昌都市文化局承办。 29日，“卓卓康巴·传奇昌都”——西藏自治区昌都市文化旅游主题周活动在天津博物馆举行。王在御摄　　此活动以昌都文化旅游为主体，结合..

银川市发放五千万元金秋惠民消费券　　中新网银川9月29日电 (记者于晶)9月28日晚，宁夏“十一”促消费系列活动暨银川市金秋五千万惠民消费券发放活动在银川文化城举行。　　据了解，银川市为了抢抓中秋国庆双节消费黄金期，发放五千万惠民消费券，其中包括汽车消费补贴活动，发放购车补贴1000万元；智能家电及燃气灶具以旧换新消费补贴活动，发放电器消费补贴1000万元；超市惠民消费补贴活动，发放超市惠民消费券1000万元；百货消费补贴活动，发放百货消费券..

陕西汉中：共发现野生朱鹮夜宿地137个种群数量呈增长态势　　陕西汉中朱鹮国家级自然保护区栖息着国内数量最大的野生朱鹮种群。8月初开始，陕西汉中朱鹮国家级自然保护区管理局开展了今年野生朱鹮种群“秋季调查”。调查共发现野生朱鹮夜宿地137个，汉中市境内野生朱鹮种群数量呈增长态势。　　秋季是国家一级保护动物朱鹮集群游荡期，此时朱鹮通常集大群活动，是统计野生朱鹮数量的最佳时期。为充分掌握野生朱鹮种群动态，8月初开始，陕西汉中朱鹮国家级自然保护区管理局组织工作人..

山西大同：以科技助力智慧养老托起幸福“夕阳红”　　中新网大同9月29日电(高雨晴马静波董芳)“自从社区有了居家养老服务后，吃饭、看病这些‘麻烦事’，只要一个电话就可以请‘嘉恩的孩子们’帮忙解决，省去了我的许多精力。”谈及居家养老，现年70岁的孙女士如是说。　　孙女士口中提到的“嘉恩的孩子们”，就是山西大同平城区嘉恩颐居社区居家养老综合服务中心的工作人员。作为山西城镇社区幸福养老工程，该中心提供机构养老和居家养老两大服务，经营模式主要以嵌入式..

上一篇:新漫评：美式民主沦为筹码 “关门”危机循环上演

下一篇:阿里云CTO周靖人：AI时代，为什么阿里云一定要做开源

对标DALL·E 3！Meta最强文生图Emu技术报告出炉

浙江超级小镇，掌控全球珍珠生意

现实版狂飙？31年前2具遇害人遗骸被挖出！真相大白

男子在舞台上推搡奥特曼演员，文旅部门回应

国庆出境游，网友：出了个“假”国？

万余涉亚运违法违规账号被查处

中秋团圆饭只供套餐，耍“潜规则”必被消费者“报复”

报告称有恶意软件广告渗透到微软必应聊天中

Meta AI芯片主管被曝离职

联合国大会主席送来祝福

日本什么样的人才算“有钱人”