快消息!如何简单高效地定制自己的文本作画模型?
强烈建议先阅读:一文弄懂DiffusionModel1 论文信息标题:Multi-ConceptCustomizationofText-to-Ima
强烈建议先阅读:一文弄懂 Diffusion Model
1. 论文信息标题:Multi-Concept Customization of Text-to-Image Diffusion
(相关资料图)
作者:Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu.
原文链接:https://arxiv.org/pdf/2212.04488.pdf
代码链接:https://www.cs.cmu.edu/~custom-diffusion/
2. 引言最近通过文本生成图像的深度学习相关技术取得了非常大的进展,2021已经成为了图像生成的一个新的milestone,诸如DALL-E和Stable diffusion这种模型都取得了长足的进步,甚至达到了“出圈”的效果。通过简单文本prompts,用户能够生成前所未有的质量的图像。这样的模型可以生成各种各样的对象、风格和场景,并把它们进行组合排序,这让现有的图像生成模型看上去是无所不能的。
但是,尽管这些模型具有多样性和一些泛化能力,用户经常希望从他们自己的生活中合成特定的概念。例如,亲人、朋友、宠物或个人物品和地点,这些都是非常有意义的concept,也和个人对于生成图像的信息有对齐。由于这些概念天生就是个人的,因此在大规模的模型训练过程中很难出现。事后通过详细的文字,来描述这种概念是非常不方便的,也无法保留足够多的视觉细节来生成新的personal的concepts。这就需要模型具有一定的“定制”能力。也就是说如果给定少量用户提供的图像,我们能否用新概念(例如宠物狗或者“月亮门”,如图所示)增强现有的文本到图像扩散模型?经过微调的模型应该能够将它们与现有概念进行概括并生成新的变化。这带来了几个比较严峻的挑战:
首先,模型倾向于遗忘现有概念的含义:例如,在添加“moon gate”这一concept的时候,“moon”的含义就会丢失。其次,由于stable diffusion这样的网络往往参数会超级多,所以在小数据上训练模型,容易造成对训练样本进行过拟合,而且采样中变化也有限。此外,论文还关注了一个更具挑战性的问题,即组group fine-tuning,即能够超越单个个体concept的微调,并将多个概念组合在一起。学习多个新的concepts同时也是存在一定的挑战的,比如 concept mixing以及concept omission。在这项工作中,论文提出了一种fine-tuning技术,即文本到图像扩散模型的“定制扩散”。我们的方法在计算和内存方面都很有效。为了克服上述挑战,新方法固定一小部分模型权重,即文本到潜在特征的key值映射在cross-attention layer中。fine-tuning这些足以更新模型的新concepts。为了防止模型丧失原来强大的表征能力,新方法仅仅使用一小组的图像与目标图像类似的真实图像进行训练。我们还在微调期间引入data的augamation,这可以让模型更快的收敛,并获得更好的结果。论文提出的方法实验是构建在Stable Diffusion之上,并对各种数据集进行了实验,其中最少有四幅训练图像。对于添加单个concept,新提出的方法显示出比相似任务的作品和基线更好的文本对齐和视觉相似性。更重要的是,我们的方法可以有效地组成多个新concepts,而直接对不同的concepts进行组合的方法则遇到困难,经常会省略一个。最后,我们的方法只需要存储一小部分参数(模型权重的3%),消耗的GPU memory非常有限,同时也减少了fine-tuning的时间。
3. 方法总结来讲,论文提出的方法,就是仅更新权重的一小部分,即模型的交叉注意力层。此外,由于目标概念的训练样本很少,所以使用一个真实图像的正则化集,以防止过拟合。
对于Single-Concept Fine-tuning,给定一个预训练的text-to-image diffusion model,我们的目标是在模型中加入一个新的concept,只要给定四张图像和相应的文本描述进行训练。fine-tuning后的模型应保留其先验知识,允许根据文本提示使用新概念生成新的图像类型。这可能具有挑战性,因为更新的文本到图像的映射可能很容易过拟合少数可用图像。所以保证泛化性就非常有必要,也比较有挑战。所以就仅仅fine-tuning新的K和V,而对于query,则保持不变,这样就可以增加新概念的同时,保证模型的表征能力不受到太多的影响。优化目标还是diffusion的形式:
概括起来实际上非常简单,就是训练一个k和v的矩阵,来扩充维度,增加模型的表征能力,使其能生成更为丰富的图像内容。
而对于Multiple-Concept Compositional Fine-tuning,为了对多个概念进行微调,我们将每个概念的训练数据集合并,并使用我们的方法将它们联合训练。为了表示目标概念,我们使用不同的修饰符的
由于我们的方法仅更新与文本特征相对应的key和value投影矩阵,因此我们可以将它们合并,以允许使用多个微调概念生成。让集合
强烈建议先阅读:一文弄懂DiffusionModel1 论文信息标题:Multi-ConceptCustomizationofText-to-Ima
【环球网报道】据日本广播协会(NHK)1月1日夜间报道称,日本防卫省当天发布消息,在冲绳附近上空发现中国无侦-7无人侦察机,日本航空自卫队战
1、冷cold,读音:美 koʊld ;英 kəʊld 。2、释义:adj 寒冷的;冷淡的,不热情的;失去知觉的。n 寒冷;感冒。adv 完全地。3、例句:Outsi
供应端 产地方面来看,进入12月份,在最新疫情政策影响下,预计疫情管控对煤炭产、运、销的影响将逐步弱化,主产地煤矿顶仓现象得到缓
截至2022年12月30日收盘,东方电气(600875)报收于21 02元,下跌1 08%,换手率0 8%,成交量16 02万手,成交额3 38亿元。
因工作需要,为充实医务人员力量,全力保障人民群众身体健康和生命安全,现面向全社会招募医务人员,具体要求如下:岗位要求思想政治素质好,
12月30日:据中国新闻网报道:中国外交部发言人汪文斌30日主持例行记者会。有记者提问,世卫组织总干事谭德塞称,由于缺乏来自中国的全面信息
北京时间12月30日,中超官方宣布,天津津门虎、北京国安放弃末轮比赛。两队对手武汉三镇和山东泰山各自被判3-0取胜,武汉三镇最终以净胜球优势
南侨食品(605339)12月30日在投资者关系平台上答复了投资者关心的问题。
康普化学深耕金属萃取剂细分领域,是国内铜萃取剂龙头企业,主营产品在国内几乎无直接竞争对手,铜金属萃取剂全球市占率25%,国内市占率55%。
中新网西宁12月29日电(记者李江宁)记者29日从青海省农业农村厅获悉,截至目前,该省累计认证绿色食品、有机农产品和农产品地理标志产品共1015
近日,YY直播发布2022年正能量报告,盘点过去的2022年,平台与公会、主播共同在正能量事业上所取得的成绩。2022年3月,YY直播联合公会、主播共
(一)不涉及财产关系的:2000元-30000元 件。上下浮动幅度:20%但收费额不足2000元的按2000元收取。(二)涉及财产关系的,按争议标的额的以下费
截至28日,美国驻华大使馆、欧洲多地VFSGlobal签证申请中心皆发布消息表示恢复签证服务工作。
截至2022年12月28日收盘,新风光(688663)报收于45 41元,上涨5 9%,换手率6 16%,成交量5 32万手,成交额2 34亿元。12月28日的
关于双眼皮疤痕恢复还会硬吗的内容,包含做完双眼皮疤痕多久能恢复割完双眼皮很久了还会疤痕增生吗
长春元旦一日游景点推荐:莲花山滑雪1日游长春莲花山滑雪场,位于吉林省长春市二道区四家乡青山村,是长春市最大的综合滑雪场,占地6平方公里
夜间采样点竹岐乡便民核酸釆集点采样点地址:竹岐乡榕西村353号(竹岐乡卫生院侧门)采样点联系电话:0591-60156009开放时间:9:00-12:0014
今天(12月28日),历经三年建成的、雄安新区承接北京非首都功能的第一个综合产业载体的雄安商务服务中心举办首批企业入驻开业活动,并发布新
离婚子女抚养费的标准主要根据子女需要、父母承担能力、当地生活水平而定。有固定收入的一方一般抚养费金额为固定工资的百分之二十到三十。无
格隆汇12月27日丨恒华科技公布,公司与陕西东方组成的联合体为“望谟县乐元管州一期农业光伏电站项目EPC招标”项目的中标人。2022年12月26日,
截至2022年12月27日收盘,启迪设计(300500)报收于13 89元,上涨2 81%,换手率1 77%,成交量2 91万手,成交额4039 49万元。12
本报记者 李春莲见习记者 彭衍菘近日,传艺科技,蜂巢能源、蔚蓝
据同花顺iFinD数据显示,12月26日白银价格出现异动: 白银现货12月26日已跌至5289 67元 千克,当日跌幅1 69%,周涨幅1 01%,月涨幅6 77%。品
一、洋姑娘种植方法1、选地整地选择地块选择肥力中等、质地疏松、结构好、易于排水、避风向阳、土层深厚的黑油沙土地块种植洋姑娘,种植前亩施
Copyright 2015-2022 太平洋酒业网 版权所有 备案号:豫ICP备2022016495号-17 联系邮箱:93 96 74 66 9@qq.com