卓越非凡基于Stable Diffusion XL的文本到图像模型在人工智能艺术社区中已经占据主导地位,以至于最大的人工智能艺术模型中心Civitai不得不创建一个单独的类别来处理其庞大的资源生态系统。
这一切都发生在三个月内。成功背后的秘密?以一种扭曲的方式回归基本。
虽然SD 3.5和Flux等较新的模型依赖于冗长的自然语言描述,小野马AIIllustrious的开发人员采取了不同的方法,利用Danbooru标签帮助他们的模型理解概念,而无需重新发明复杂的字幕系统。
该模型在Danbooru庞大的标记动漫图像库上的训练使其在理解视觉概念方面具有优势。
Danbooru系统中的每个标签都代表特定的元素,如角色特征、服装、姿势或背景,从而可以精确控制生成的图像,而不会在冗长的描述上浪费宝贵的标记。
这些标签已经存在多年,并已成为艺术/动漫爱好者进行图像分类的标准。
当涉及到理解照片的特征时,该模型非常准确和高效。
参与专注于NSFW人工智能内容的服务器的Discord成员Vishnu告诉记者:“这就像有一个艺术家,他完全理解你想要什么,而不必用段落来解释。”解密“你只需要知道正确的标签。”
Illustrious的核心是使用旧的好东西SDXL架构使用复杂的双编码器系统,结合CLIP ViT-L和OpenCLIP ViT-bigG来理解单词并将其与视觉等价物相关联。
该模型能够以令人印象深刻的1536×1536分辨率处理和生成图像,能够扩展到2048×2048甚至3744x3744,而不会造成明显的质量损失。
就上下文而言,最初的SDXL处理全高清分辨率(1024x1024)。
创造卓越的旅程是有条不紊、深思熟虑的。最初的训练阶段产生了0.1版本,以1024×1024的分辨率处理了7.5M张图像,每批处理192张图像。
该团队仔细平衡了学习率,运行了20个epoch(人工智能研究其100%数据集的过程),以建立坚实的基础。一旦结果足够令人满意,团队就开始增加数据集的大小和用于下一次迭代的分辨率。
在高级训练阶段,卓越真正开始闪耀。1.0版本将数据集扩展到1000万张图像,并将分辨率提升到1536×1536。
尽管他们将批处理大小减少到128,但他们引入了复杂的标签操作策略和寄存器令牌,这些根本性的变化定义了模型的卓越性能。
2.0版本的最后改进阶段更进一步。该团队以相同的高分辨率处理2000万张图像,但批量大小更大,为512张,他们采用了一种多字幕方法,大大提高了文本与图像的对应性。
结果是最好的外富众所周知的发电机,具有良好的微调能力、快速的附着力、美观的外观和高质量的输出。
对于更精通技术的人来说,卓越的开发人员还引入了很多有趣的技术就像“无退出令牌”方法一样,确保在训练过程中永远不会排除特定的令牌;准注册令牌的实现,使模型能够处理未知或奇怪的概念;余弦退火调度器,用于学习率;多级衰减系统和输入扰动噪声增强,将一个简单的人工智能模型变成一个强大的引擎。
Illustrious不需要任何额外的步骤来运行。
安装过程与任何其他SDXL型号相同。下载检查点并将其放入相应的文件夹中,具体取决于您使用的UI。
Windows和Linux
MacOS
Mac用户也有类似的路线。然而,一些流行的面向macOS的UI需要额外的步骤。
加载模型后,有三件事需要考虑。
有许多型号可供选择,都专注于不同的风格、美学和特点。
甚至还有像Noob AI这样的通用模型,它以Illustrious为基础,被精细调音师用来构建模型。
然而,以下是我们针对不同需求的热门图片。这些在快速理解、输出质量和易用性方面表现出色。所有样本均来自Civit AI社区,无版权。
最具变通能力:Mistoon_Anime
链接:Mistoon_Anime-v1.0卓越|卓越检查站|奇维塔
2.5d最佳:平滑混合-卓越-警告!非常面向NSFW
链接:平滑混合-卓越|小马-卓越|卓越检查站|奇维塔
最适合艺术和插图:NTR Mix
链接:NTR MIX |卓越的XL | Noob XL-XIII |卓越的检查站|奇维塔
最适合现实主义:THRILLustious
链接:THRILLustious-v5.0 THRILLed |卓越的检查站|奇维塔
编辑人塞巴斯蒂安·辛克莱以及奎特纳
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com