GitHub – Rudrabha/Wav2Lip: This repository contains the codes of “A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild”, published at ACM Multimedia 2020. For HD commercial model, please try out Sync Labs

1周前发布 5 00

This repository contains the codes of "A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild", published at ACM Multimedia 2020. For HD commercial mo...

所在地:
中国
语言:
zh
收录时间:
2025-10-06
其他站点:
GitHub – Rudrabha/Wav2Lip: This repository contains the codes of “A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild”, published at ACM Multimedia 2020. For HD commercial model, please try out Sync LabsGitHub – Rudrabha/Wav2Lip: This repository contains the codes of “A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild”, published at ACM Multimedia 2020. For HD commercial model, please try out Sync Labs

网站整体介绍
该网站是GitHub上的Wav2Lip项目仓库,主要包含2020年ACM Multimedia论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild》的开源代码,同时提供商业级唇同步解决方案的链接(Sync Labs)。项目聚焦于精准的视频唇同步技术,支持将任意视频与目标音频进行唇形匹配,适用于科研、学术或个人场景(商业使用需联系作者)。

核心功能与模块

1. 商业版本(Sync Labs)
提供更高质量的唇同步生成服务,支持快速接入API:
创建API密钥:通过Sync Labs仪表盘(https://sync.so/keys)生成密钥,用于访问Sync API。
快速生成示例:
Python:安装`syncsdk`后,通过代码调用API,传入视频URL、音频URL和密钥,即可生成唇同步视频。
TypeScript:安装`@sync.so/sdk`,通过类似流程调用API,获取生成结果。

2. 开源版本功能
包含完整的推理、训练、评估代码及预训练模型,支持自定义唇同步任务:

(1)预训练模型使用(推理)
模型选择:提供两个预训练模型——`Wav2Lip`(高唇同步准确性)、`Wav2Lip + GAN`(视觉质量更优但唇同步略逊)。
推理命令:通过`inference.py`脚本,传入模型 checkpoint、面部视频、音频源,生成唇同步结果(默认保存至`results/result_voice.mp4`)。
优化技巧:
调整`pads`参数修正面部 bounding box(如`pads 0 20 0 0`增加下巴区域 padding);
使用`nosmooth`解决面部检测过度平滑导致的错位;
用`resize_factor`降低视频分辨率(适配模型训练数据的分辨率)。

(2)模型训练
需先准备数据集(如LRS2),再分两步训练:
训练专家判别器:运行`color_syncnet_train.py`,训练用于判断唇同步质量的判别器(可跳过,直接下载预训练权重)。
训练Wav2Lip模型:
基础版:运行`wav2lip_train.py`,传入预处理后的数据集、专家判别器权重,训练高准确性模型;
高质量版:运行`hq_wav2lip_train.py`,加入视觉质量判别器,提升输出视频的视觉效果。

(3)数据预处理
针对LRS2数据集,通过`preprocess.py`将视频拆分为帧图像和音频文件,生成适合训练的文件夹结构(如`lrs2_preprocessed/`下包含每个视频的帧和`audio.wav`)。

(4)评估工具
`evaluation/`文件夹提供评估基准和 metrics 计算方法,用于验证唇同步结果的质量(如论文中报告的指标)。

特色板块

1. 通用性:支持任意身份、声音、语言的唇同步,甚至适用于CGI面部和合成语音。
2. 便捷工具:提供Google Colab笔记本(直接运行代码,无需本地配置)、互动演示(https://sync.so/)、教程视频(如What Make Art的讲解)。
3. 完整生态:包含从数据预处理、模型训练、推理到评估的全流程代码,且预训练模型、检查点、样本均存储在Google Drive中,方便获取。

使用要求

环境:Python 3.6、ffmpeg(`sudo aptget install ffmpeg`)。
依赖:通过`pip install r requirements.txt`安装所需包(或使用Docker镜像)。
面部检测模型:需下载预训练模型`face_detection/detection/sfd/s3fd.pth`(提供多个下载链接)。

许可证与引用
开源版本仅用于个人/科研/非商业场景,商业使用需联系作者(rudrabha@synclabs.so 或 prajwal@synclabs.so)。
引用要求:若使用该仓库代码,需引用关联论文(论文信息见仓库 README)。

其他信息
仓库星数:12.5k+,fork数:2.7k+, contributors 共9人。
语言构成:Python占99.8%,Shell占0.2%。
商业服务:Sync Labs提供托管API,生成面部尺寸为192×288的高清唇同步视频。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...