Stable Diffusion 图片超清高保真无损放大插件 StableSR 快速将任意像素的图片放大成8K级别的清晰度 细节满满

Stable Diffusion 图片超清高保真无损放大插件 StableSR  快速将任意像素的图片放大成8K级别的清晰度 细节满满 -1

由于Stable-Diffusion并不适合生成很大的图片,所以我们可以先生成适合的正常尺寸图,再通过附加功能页的放大功能,放大图片。同时介绍了好些缩放模型,其中有些效果挺好的。

特别是LDSR(潜在扩散超分辨率模型)照片表现非常好,不仅脑补的细节多,还加入了很多噪点显得真实。

但模型体积巨大+速度超级慢。放大一张512×512的图,几乎需要20分钟(其它放大算法都是20秒内……)。

所以,有没有其它放大选择呢?

StableSR提出了一种新方法来利用封装在预训练的文本到图像扩散模型中的先验知识来实现​​盲超分辨率 (SR)。具体来说,通过使用我们的时间感知编码器,我们可以在不改变预训练合成模型的情况下获得有希望的恢复结果,从而保留生成先验并最小化训练成本。

为了弥补扩散模型固有的随机性导致的保真度损失,我们引入了一个可控的特征包装模块,允许用户通过在推理过程中简单地调整标量值来平衡质量和保真度。此外,我们开发了一种渐进式聚合采样策略来克服预训练扩散模型的固定大小限制,从而能够适应任何大小的分辨率。

Stable Diffusion 图片超清高保真无损放大插件 StableSR  快速将任意像素的图片放大成8K级别的清晰度 细节满满 -2

StableSR首先微调连接到固定的预训练稳定扩散模型的时间感知编码器。特征与可训练的空间特征变换 (SFT) 层相结合。这种简单而有效的设计能够利用图像 SR 的丰富先验扩散。然后,扩散模型是固定的。

受 CodeFormer 的启发,我们引入了一个可控特征包装 (CFW) 模块,以残差方式获得调整特征,给定来自固定 VQGAN 解码器的 LR 特征和特征的附加信息。通过可调系数,CFW 可以在质量和保真度之间进行权衡。我们通过应用聚合采样策略进一步实现任意大小的超分辨率。

功能

高保真图像放大:

  • 不修改人物脸部的同时添加非常细致的细节和纹理
  • 适合大多数图片(真实或动漫,摄影作品或AIGC,SD 1.5或Midjourney图片…)

较少的显存消耗:

  • 我移除了官方实现中显存消耗高的模块。
  • 剩下的模型比ControlNet Tile模型小得多,需要的显存也少得多。
  • 当结合Tiled Diffusion & VAE时,你可以在有限的显存(例如,<12GB)中进行4k图像放大。

注意,sdp可能会不明原因炸显存。建议使用xformers。

小波分解颜色修正:

  • StableSR官方实现有明显的颜色偏移,这一问题在分块放大时更加明显。
  • 我实现了一个强大的后处理技术,有效地匹配放大图像与原图的颜色。请看小波分解颜色修正例子。

使用

  1. 安装

方法 1: 官方市场

打开Automatic1111 WebUI -> 点击“扩展”选项卡 -> 点击“可用”选项卡 -> 找到“StableSR” -> 点击“安装”

方法 2: URL 安装

打开 Automatic1111 WebUI -> 点击 "Extensions" 标签页 -> 点击 "Install from URL" 标签页 -> 输入 https://github.com/pkuliyi2015/sd-webui-stablesr.git -> 点击 "Install"
Stable Diffusion 图片超清高保真无损放大插件 StableSR  快速将任意像素的图片放大成8K级别的清晰度 细节满满 -3
  1. 必须模型

你必须使用 StabilityAI 官方的 Stable Diffusion V2.1 512 EMA 模型(约 5.21GB)

  • 你可以从 HuggingFace 下载
  • 放入 stable-diffusion-webui/models/Stable-Diffusion/ 文件夹
  • 虽然StableSR需要一个SD2.1的模型权重,但你仍然可以放大来自SD1.5的图片。NSFW图片不会被模型扭曲,输出质量也不会受到影响。

下载 StableSR 模块

  • 官方资源:HuggingFace (约1.2G)。请注意这是一个zip文件,同时包含StableSR模块和可选组件VQVAE.
  • 我的资源: <百度网盘-提取码aguq>
  • 把StableSR模块(约400M大小)放入 stable-diffusion-webui/extensions/sd-webui-stablesr/models/ 文件夹
  1. 可选组件

安装 Tiled Diffusion & VAE 扩展

  • 原始的 StableSR 对大于 512 的大图像容易出现 OOM。
  • 为了获得更好的质量和更少的 VRAM 使用,我们建议使用 Tiled Diffusion & VAE。

使用官方 VQGAN VAE

  • 官方资源:同2中的链接
  • 我的资源: <百度网盘-提取码83u9>
  • 把VQVAE(约750MB大小)放在你的 stable-diffusion-webui/models/VAE 中
  1. 扩展使用

在 WebUI 的顶部,选择你下载的 v2-1_512-ema-pruned 模型。

切换到 img2img 标签。在页面底部找到 “Scripts” 下拉列表。

  • 选择 StableSR 脚本。
  • 点击刷新按钮,选择你已下载的 StableSR 检查点。
  • 选择一个放大因子。

上传你的图像并开始生成(无需提示也能工作)。

推荐使用 Euler a 采样器,CFG值<=2,步数 >= 20。

如果生成图像尺寸 > 512,我们推荐使用 Tiled Diffusion & VAE,否则,图像质量可能不理想,VRAM 使用量也会很大。

这里是官方推荐的 Tiled Diffusion 设置。

  • 方法 = Mixture of Diffusers
  • 隐空间Tile大小 = 64,隐空间Tile重叠 = 32
  • Tile批大小尽可能大,直到差一点点就炸显存为止。
  • Upscaler必须选择None。

下图是24GB显存的推荐设置。

  • 对于4GB的设备,只需将Tiled Diffusion Latent tile批处理大小改为1,Tiled VAE编码器Tile大小改为1024,解码器Tile大小改为128。
  • SDP注意力优化可能会导致OOM(内存不足),因此推荐使用xformers。
  • 除非你有深入的理解,否则你不要改变Tiled Diffusion & Tiled VAE中的其他设置。这些参数对于StableSR基本上是最优解。
Stable Diffusion 图片超清高保真无损放大插件 StableSR  快速将任意像素的图片放大成8K级别的清晰度 细节满满 -4
  1. 参数解释

什么是 “Pure Noise”?

  • Pure Noise也就是纯噪声,指的是从完全随机的噪声张量开始,而不是从你的图像开始。这是 StableSR 论文中的默认做法。
  • 启用这个选项时,脚本会忽略你的重绘幅度设置。产出将会是更详细的图像,但也会显著改变颜色和锐度。
  • 禁用这个选项时,脚本会开始添加一些噪声到你的图像。即使你将去噪强度设为1,结果也不会那么的细节(但可能更和谐好看)。参见 对比图。
  • 如果禁用Pure Noise,推荐重绘幅度设置为1

什么是”颜色修正”?

  • 这是为了缓解来自StableSR和Tile处理过程中的颜色偏移问题。
  • AdaIN简单地匹配原图和结果图的颜色统计信息。这是StableSR官方算法,但常常效果不佳。
  • Wavelet将原图和结果图分解为低频和高频,然后用原图的低频信息(颜色)替换掉结果图的低频信息。该算法对于不均匀的颜色偏移非常强力。算法来自GIMP和Krita,对每张图像需要几秒钟的时间。
  • 启用颜色修正时,原图也会出现在您的预览窗口中,但不会被自动保存。
Stable Diffusion 图片超清高保真无损放大插件 StableSR  快速将任意像素的图片放大成8K级别的清晰度 细节满满-MOHE素材库-设计行业的乐园,各类素材的矿山!
Stable Diffusion最新放大器 StableSR 超清高保真无损放大图片 快速将任意像素的图片放大成8K级别的清晰度 细节满满
此内容为免费资源,请登录后查看
0积分
免费资源
© 版权声明
THE END
喜欢就支持一下吧
点赞16 分享
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容