GitHub – ChenyangSi/FreeU: FreeU: Free Lunch in Diffusion U-Net (CVPR2024 Oral)

1周前发布 4 00

FreeU: Free Lunch in Diffusion U-Net (CVPR2024 Oral) - ChenyangSi/FreeU

所在地:
中国
语言:
zh
收录时间:
2025-10-06
其他站点:
GitHub – ChenyangSi/FreeU: FreeU: Free Lunch in Diffusion U-Net (CVPR2024 Oral)GitHub – ChenyangSi/FreeU: FreeU: Free Lunch in Diffusion U-Net (CVPR2024 Oral)

FreeU是一个针对扩散模型UNet提出的方法,由南洋理工大学SLab的Chenyang Si、Ziqi Huang、Yuming Jiang、Ziwei Liu团队开发,相关成果为CVPR2024 Oral论文。该方法的核心优势是无成本提升扩散模型样本质量:不需要额外训练、不引入新参数、不增加内存占用或采样时间。项目提供了论文(https://arxiv.org/pdf/2309.11497.pdf)、项目页(https://chenyangsi.top/FreeU/)、视频(https://www.youtube.com/watch?v=CZ5uWxvX30&t=2s)、Hugging Face Demo(https://huggingface.co/spaces/ChenyangSi/FreeU)等资源。

核心功能
FreeU通过调整扩散模型UNet解码器的前两个阶段,提升样本质量:
1. 隐藏层特征调整:对解码器中通道数为1280和640的隐藏层特征,计算特征均值并进行归一化,再用参数(b1、b2)缩放特征的前半部分通道(如1280通道的前640维、640通道的前320维),增强特征表达。
2. 跳过连接傅里叶滤波:对对应阶段的跳过连接特征(hs_)应用傅里叶滤波,通过阈值(如1)和参数(s1、s2)调整高频信息,保留有效细节。

使用方法
1. 在线Demo:可直接通过Hugging Face空间(https://huggingface.co/spaces/ChenyangSi/FreeU)体验效果。
2. 本地运行:下载仓库代码后,运行`python demos/app.py`启动Gradio Demo。

代码实现
Fourier_filter函数:对输入特征进行傅里叶变换(FFT),生成频率掩码(保留中心阈值内的频率并缩放),再逆傅里叶变换(IFFT)得到滤波后的特征。
Free_UNetModel类:继承自扩散模型的UNetModel,添加FreeU逻辑:在解码器前两个阶段,分别调整隐藏层特征和跳过连接特征,支持参数b1、b2(隐藏层缩放)、s1、s2(滤波缩放)的配置。

参数配置
不同扩散模型的推荐参数如下(部分模型参数会更新):
SD1.4:b1=1.3、b2=1.4、s1=0.9、s2=0.2
SD1.5:b1=1.5、b2=1.6、s1=0.9、s2=0.2
SD2.1:b1=1.4、b2=1.6、s1=0.9、s2=0.2
SDXL:b1=1.3、b2=1.4、s1=0.9、s2=0.2

参数调整范围参考:
b1:1 ≤ b1 ≤ 1.2
b2:1.2 ≤ b2 ≤ 1.6
s1:s1 ≤ 1
s2:s2 ≤ 1

社区结果
用户分享的FreeU使用效果包括:
SDXL模型结果(https://wandb.ai/nasirk24/UNETFreeUSDXL/reports/FreeUSDXLOptimalParametersVmlldzo1NDg4NTUw?accessToken=6745kr9rjd6e9yjevkr9bpd2lm6dpn6j00428gz5l60jrhl3gj4gubrz4aepupda)
ComfyUI插件效果(https://twitter.com/bramvera/status/1706190498220884007)
SD2.1模型结果(https://twitter.com/justindujardin/status/1706021278963179612)
SDXL视频结果(https://www.youtube.com/watch?v=jTcGZKkifsA&t=1s)等。

相关导航

SparkAi-渐进式AIGC系统

SparkAi-渐进式AIGC系统

SparkAi系统是一款基于OpenAI-ChatGPT、AI大模型、AI智能体(自定义GPTs智能体对接)、AI绘画Midjourney、MJ v7版本绘画支持、Dalle绘画开发的AI大模型智能问答和AI绘画系统;支持最新DeepSeek思考推理大模型(独家全天稳定高并发高可用!),支持deepseek-r1-671B满血版,最新deepseek-v3大模型,OpenAI-o1、o3推理大模型使用;一站式AI系统,提供面向个人用户 (ToC)、开发者 (ToD) 和企业 (ToB) 的全面解决方案。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...