GitHub – ChenyangSi/FreeU: FreeU: Free Lunch in Diffusion U-Net (CVPR2024 Oral)

4个月前发布 86 00

FreeU: Free Lunch in Diffusion U-Net (CVPR2024 Oral) - ChenyangSi/FreeU

所在地:
中国
语言:
zh
收录时间:
2025-10-06
其他站点:
GitHub – ChenyangSi/FreeU: FreeU: Free Lunch in Diffusion U-Net (CVPR2024 Oral)GitHub – ChenyangSi/FreeU: FreeU: Free Lunch in Diffusion U-Net (CVPR2024 Oral)

FreeU是一个针对扩散模型UNet提出的方法,由南洋理工大学SLab的Chenyang Si、Ziqi Huang、Yuming Jiang、Ziwei Liu团队开发,相关成果为CVPR2024 Oral论文。该方法的核心优势是无成本提升扩散模型样本质量:不需要额外训练、不引入新参数、不增加内存占用或采样时间。项目提供了论文(https://arxiv.org/pdf/2309.11497.pdf)、项目页(https://chenyangsi.top/FreeU/)、视频(https://www.youtube.com/watch?v=CZ5uWxvX30&t=2s)、Hugging Face Demo(https://huggingface.co/spaces/ChenyangSi/FreeU)等资源。

核心功能
FreeU通过调整扩散模型UNet解码器的前两个阶段,提升样本质量:
1. 隐藏层特征调整:对解码器中通道数为1280和640的隐藏层特征,计算特征均值并进行归一化,再用参数(b1、b2)缩放特征的前半部分通道(如1280通道的前640维、640通道的前320维),增强特征表达。
2. 跳过连接傅里叶滤波:对对应阶段的跳过连接特征(hs_)应用傅里叶滤波,通过阈值(如1)和参数(s1、s2)调整高频信息,保留有效细节。

使用方法
1. 在线Demo:可直接通过Hugging Face空间(https://huggingface.co/spaces/ChenyangSi/FreeU)体验效果。
2. 本地运行:下载仓库代码后,运行`python demos/app.py`启动Gradio Demo。

代码实现
Fourier_filter函数:对输入特征进行傅里叶变换(FFT),生成频率掩码(保留中心阈值内的频率并缩放),再逆傅里叶变换(IFFT)得到滤波后的特征。
Free_UNetModel类:继承自扩散模型的UNetModel,添加FreeU逻辑:在解码器前两个阶段,分别调整隐藏层特征和跳过连接特征,支持参数b1、b2(隐藏层缩放)、s1、s2(滤波缩放)的配置。

参数配置
不同扩散模型的推荐参数如下(部分模型参数会更新):
SD1.4:b1=1.3、b2=1.4、s1=0.9、s2=0.2
SD1.5:b1=1.5、b2=1.6、s1=0.9、s2=0.2
SD2.1:b1=1.4、b2=1.6、s1=0.9、s2=0.2
SDXL:b1=1.3、b2=1.4、s1=0.9、s2=0.2

参数调整范围参考:
b1:1 ≤ b1 ≤ 1.2
b2:1.2 ≤ b2 ≤ 1.6
s1:s1 ≤ 1
s2:s2 ≤ 1

社区结果
用户分享的FreeU使用效果包括:
SDXL模型结果(https://wandb.ai/nasirk24/UNETFreeUSDXL/reports/FreeUSDXLOptimalParametersVmlldzo1NDg4NTUw?accessToken=6745kr9rjd6e9yjevkr9bpd2lm6dpn6j00428gz5l60jrhl3gj4gubrz4aepupda)
ComfyUI插件效果(https://twitter.com/bramvera/status/1706190498220884007)
SD2.1模型结果(https://twitter.com/justindujardin/status/1706021278963179612)
SDXL视频结果(https://www.youtube.com/watch?v=jTcGZKkifsA&t=1s)等。

相关导航

GitHub – Rudrabha/Wav2Lip: This repository contains the codes of “A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild”, published at ACM Multimedia 2020. For HD commercial model, please try out Sync Labs

GitHub – Rudrabha/Wav2Lip: This repository contains the codes of “A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild”, published at ACM Multimedia 2020. For HD commercial model, please try out Sync Labs

This repository contains the codes of "A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild", published at ACM Multimedia 2020. For HD commercial model, please try out Sync Labs - GitHub - Rudrabha/Wav2Lip: This repository contains the codes of "A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild", published at ACM Multimedia 2020. For HD commercial model, please try out Sync Labs

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...