在内容创作领域,Stable Diffusion已经成为了一种强大的工具,可以从文本生成高质量的图像,适用于CG、插图、高分辨率壁纸等多个领域。然而,Stable Diffusion的计算过程相对复杂,导致生成速度相对较慢。为了解决这个问题,研究人员开发了各种加速方式,如Xformers、Aitemplate、TensorRT和OneFlow。在本文中,我们将介绍这些加速方法的原理和性能测试结果,并提供不同显卡的性价比分析,旨在在2秒内生成高质量图像。
加速方式原理及特性
首先,让我们看看目前能够看到的一些加速方式。这些方式包括Xformers、Aitemplate、TensorRT、OneFlow等。Xformers和NvFuser都使用了FlashAttention技术,DeepSpeed和colossalAI主要是为训练加速而设计的,OpenAI Triton则适用于批处理加速,但不适用于优化延迟场景。
加速方式测试
接下来,我们将介绍我们的测试设置。我们的性能度量标准是每秒迭代次数(its/s),图像设置为512*512,总共进行100次迭代。提示词包括"A beautiful girl, best quality, ultra-detailed, extremely detailed CG unity 8k wallpaper, best illustration, an extremely delicate and beautiful, floating, high resolution.",而负面提示包括"Low resolution, bad anatomy, bad hands, text error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, bad feet, fused body."采用的采样方法是Euler a,模型版本为Stable Diffusion 1.5。
接下来,让我们看看在各种GPU上的性能测试结果。根据测试,加速度从高到低排列为OneFlow > TensorRT > Aitemplate > Xformers。与RTX 3090上的Xformers相比,OneFlow实现了惊人的211.2%的相对加速,在RTX 4090上实现了205.6%的加速。
GPU性价比分析
接下来,我们对不同GPU的性价比进行了分析。从性价比的角度来看,RTX 4090 GPU性价比最高,而RTX 2080Ti则是目前性价比最高的GPU,低端的GPU会增加整体成本。在测试中,1660和1080这样的低端GPU由于不支持加速方式,性能较低。M60 GPU虽然可以运行,但速度相对较慢,达到1.27 it/s,生成512*512图像需要15.74秒。
选择建议
最后,我们提供一些选择建议。虽然RTX 4090具有最高的速度,但RTX 3090也是一个不错的选择,性能优于其他同级别的GPU。更大的VRAM可以缓存更多的模型,减少模型加载时间,并显著加快图像生成过程。因此,根据需求选择合适的GPU,RTX 3090和RTX 4090都是不错的选择。
总结
综上所述,通过加速方式的优化,Stable Diffusion在各种显卡上的生成速度得到了显著提升。不同的加速方式具有不同的性能表现,而不同的GPU也具有不同的性价比。选择适合自己需求的加速方式和GPU,可以更快地生成高质量的图像,提高工作效率。