但是天生的图片肯定是没有办法直接用于商业,要经由一系列后期的加工才能用于商业场景像海报、产品宣扬图等等,想要直接应用还须要图片天生模型具有一定的可视化文本渲染能力。
可视化文本渲染引起了人们的极大兴趣,并成为各种最新的商业级文本到图像天生模型(如DALL·E3、Midjourney-v6 和 Ideogram 1.0)的关键评估方面。
自StableDiffsion 3中更有效的整流方法或自定义文本编码器Glyph-byt5的开拓以来,研究界也不雅观察到视觉文本天生任务取得了重大进展。
然而,所有这些努力仍旧集中在单一措辞上,英语。
从表格中可以看到,其他措辞与英语比较,文本渲染的准确率都是较低的。
由于缺少高质量的数据,其他措辞的可视化文本渲染,特殊是中文、日语和韩语,对付现有的方法来说仍旧是非常具有寻衅性的。
图片分别展示了基于DALL·E3和Ideogram 1.0天生的带有多措辞视觉文本的图像。
我们可以不雅观察到,它们的大部分视觉拼写准确率险些为零,这突出表明,多措辞视觉文本渲染任务对两种领先的商业文本到图像天生模型都提出了根本性的寻衅。
而微软联合清华北大推出的一个多措辞海报天生模型Glyph-ByT5-v2,支持十余种措辞的海报天生,为海报天生领域供应了更强大的工具,也在多措辞文本渲染这一方面迈出了关键性的一步。
项目简介
为了战胜这一寻衅,该团队设计了一种大略的基于翻译的方法,对付字母措辞,利用与英语相同的增强策略,即字符级和单词级的字形更换、字形重复、字形删除和字形添加。
对付基于字符的措辞,如汉语、日语和韩语,我们仅在字符级别上运用字形重复和字形删除。
此外,为了战胜对各种汉字繁芜构造建模的寻衅,我们设计了一种形状相似的汉字更换策略来帮助用户理解这些设计,根据汉字的形状选择最相似的汉字更换。
除了对准确性的提升之外,海报当然还要考虑美感,足够俊秀才能起到吸引人的浸染。
与原始的Glyph-SDXL利用默认SDXL不同,该团队选择在演习后利用改进的SDXI,特殊是SPO-SDXI微调了一个阶梯感知偏好学习方案。
第一行Glyph-SDXL,第二行Glyph-SDXL Albedo,末了一行Glyph-SDXL Albedo+ SPO
我们可以看到Glyph-SDXL Albedo+SPo天生的图像质量最好,明显优于原始SDXL天生的图像。
前面先容了这么多技能,但是究竟行弗成,不能光看技能好不好,终极还是要落实到实际看看效果如何。
从上到下分别是法语、西班牙语、汉语、日语和韩语的展示效果。
我们可以看到,这些笔墨的天生效果是非常好的,海报的都雅性也是非常不错的,这可能是可视化笔墨渲染历史性的一步。
总结
大概很快这项技能就会运用于商业场景,那公司可能会省下一大笔在海报或是宣扬上面设计的经费。到时候我们可能在街上看到的都是程序自动天生的海报和宣扬图。
不过不知道在大量天生海报的情形下会不会涌现风格雷同等问题,还须要进一步的考量。