就在不久前,Stability AI 团队官方宣布了 SD V3.0,其显著提高了在多主题提示、图像质量和拼写能力方面的性能,支持文字渲染!
Stable Diffusion 3 模型套件目前的参数范围为 800M 到 8B。 这种方法旨在与我们的核心价值观保持一致并使访问民主化,为用户提供多种可扩展性和质量选项,以最好地满足他们的创意需求。 Stable Diffusion 3 结合了扩散变压器架构和流量匹配。 我们将很快发布详细的技术报告。
在早期预览版中发布了 Stable Diffusion 3,这是我们最强大的文本到图像模型,在多主题提示、图像质量和拼写能力方面的性能得到了极大提高。
虽然该模型尚未广泛使用,但今天我们开放了早期预览的候补名单。与之前的模型一样,这个预览阶段对于收集见解以在公开发布之前提高其性能和安全性至关重要。您可以在此处注册加入候补名单。
Stable Diffusion 3 模型套件目前的参数范围为 800M 到 8B。这种方法旨在与我们的核心价值观保持一致并使访问民主化,为用户提供多种可扩展性和质量选项,以最好地满足他们的创意需求。 Stable Diffusion 3 结合了扩散变压器架构和流量匹配。我们将很快发布详细的技术报告。
我们相信安全、负责任的人工智能实践。这意味着我们已经并将继续采取合理的措施来防止不良行为者滥用 Stable Diffusion 3。当我们开始训练模型时,安全就开始了,并持续到测试、评估和部署的整个过程。为了准备这个早期预览版,我们引入了许多保护措施。通过不断与研究人员、专家和我们的社区合作,我们希望在模型公开发布时能够进一步诚信创新。
我们始终坚定地致力于确保生成式人工智能的开放、安全和普遍可用。通过 Stable Diffusion 3,我们努力提供适应性强的解决方案,使个人、开发人员和企业能够释放他们的创造力,这与我们激活人类潜力的使命相一致。
如果您想在 Stable Diffusion 3 发布之前尝试使用我们的其他图像模型之一进行商业用途,请访问我们的 Stability AI 会员页面以自行托管或访问我们的开发者平台以访问我们的 API。
SD V3.0 还包括了以下关键的技术创新和改进:
- New architecture:同 Sora 类似,SD V3.0 也采用了
Diffusion Transformer
架构,参数量也从原先的 800M 提升到 8B,从而为模型提供了更强大的图像生成能力;Scaling Law YYDS! - Flow Matching:SD V3.0型还整合了 FM 等先进技术,进一步提升了模型的生成图像的质量和多样性。Flow Matching 是建立在 Continuous Normalizing Flows (CNFs) 的生成建模范式上的一项新技术,旨在引入不同的概率路径,以提高模型的灵活性、稳定性和性能。
据公开资料现实,本次 SD V3.0 的更新着重提升了以下几点:
- 更广泛的提示理解: 创新模型对于涵盖多个主题或元素的提示展现出更为深刻的理解和处理能力。这使得用户能够在一个提示中勾勒出更为复杂的场景,而模型则能够更加准确地基于这些描述生成图像。
- 更卓越的图像品质: SD V3.0 在生成的图像品质方面有了显著提升,包括更为精细的细节展现、更准确的颜色匹配以及更富有自然感的光影处理。这些改进使得生成的图像更加逼真,更能够捕捉到用户的创意意图。
- 更强大的文本处理能力: 该版本在处理文本元素方面,特别是在图像中直接展现的文本(如标语、标签等),展现出更为卓越的拼写和文本理解能力。这包括更为准确地辨别和呈现用户提示中的文字,即使在复杂的视觉背景中也能够表现得更为出色。
请登录后查看评论内容