
网站整体介绍
该网站是GitHub上的Wav2Lip项目仓库,主要包含2020年ACM Multimedia论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild》的开源代码,同时提供商业级唇同步解决方案的链接(Sync Labs)。项目聚焦于精准的视频唇同步技术,支持将任意视频与目标音频进行唇形匹配,适用于科研、学术或个人场景(商业使用需联系作者)。
核心功能与模块
1. 商业版本(Sync Labs)
提供更高质量的唇同步生成服务,支持快速接入API:
创建API密钥:通过Sync Labs仪表盘(https://sync.so/keys)生成密钥,用于访问Sync API。
快速生成示例:
Python:安装`syncsdk`后,通过代码调用API,传入视频URL、音频URL和密钥,即可生成唇同步视频。
TypeScript:安装`@sync.so/sdk`,通过类似流程调用API,获取生成结果。
2. 开源版本功能
包含完整的推理、训练、评估代码及预训练模型,支持自定义唇同步任务:
(1)预训练模型使用(推理)
模型选择:提供两个预训练模型——`Wav2Lip`(高唇同步准确性)、`Wav2Lip + GAN`(视觉质量更优但唇同步略逊)。
推理命令:通过`inference.py`脚本,传入模型 checkpoint、面部视频、音频源,生成唇同步结果(默认保存至`results/result_voice.mp4`)。
优化技巧:
调整`pads`参数修正面部 bounding box(如`pads 0 20 0 0`增加下巴区域 padding);
使用`nosmooth`解决面部检测过度平滑导致的错位;
用`resize_factor`降低视频分辨率(适配模型训练数据的分辨率)。
(2)模型训练
需先准备数据集(如LRS2),再分两步训练:
训练专家判别器:运行`color_syncnet_train.py`,训练用于判断唇同步质量的判别器(可跳过,直接下载预训练权重)。
训练Wav2Lip模型:
基础版:运行`wav2lip_train.py`,传入预处理后的数据集、专家判别器权重,训练高准确性模型;
高质量版:运行`hq_wav2lip_train.py`,加入视觉质量判别器,提升输出视频的视觉效果。
(3)数据预处理
针对LRS2数据集,通过`preprocess.py`将视频拆分为帧图像和音频文件,生成适合训练的文件夹结构(如`lrs2_preprocessed/`下包含每个视频的帧和`audio.wav`)。
(4)评估工具
`evaluation/`文件夹提供评估基准和 metrics 计算方法,用于验证唇同步结果的质量(如论文中报告的指标)。
特色板块
1. 通用性:支持任意身份、声音、语言的唇同步,甚至适用于CGI面部和合成语音。
2. 便捷工具:提供Google Colab笔记本(直接运行代码,无需本地配置)、互动演示(https://sync.so/)、教程视频(如What Make Art的讲解)。
3. 完整生态:包含从数据预处理、模型训练、推理到评估的全流程代码,且预训练模型、检查点、样本均存储在Google Drive中,方便获取。
使用要求
环境:Python 3.6、ffmpeg(`sudo aptget install ffmpeg`)。
依赖:通过`pip install r requirements.txt`安装所需包(或使用Docker镜像)。
面部检测模型:需下载预训练模型`face_detection/detection/sfd/s3fd.pth`(提供多个下载链接)。
许可证与引用
开源版本仅用于个人/科研/非商业场景,商业使用需联系作者(rudrabha@synclabs.so 或 prajwal@synclabs.so)。
引用要求:若使用该仓库代码,需引用关联论文(论文信息见仓库 README)。
其他信息
仓库星数:12.5k+,fork数:2.7k+, contributors 共9人。
语言构成:Python占99.8%,Shell占0.2%。
商业服务:Sync Labs提供托管API,生成面部尺寸为192×288的高清唇同步视频。
相关导航


GitHub – yihong0618/xiaogpt: Play ChatGPT and other LLM with Xiaomi AI Speaker

GitHub – zylon-ai/private-gpt: Interact with your documents using the power of GPT, 100% privately, no data leaks

Open SaaS

QAnything-网易有道本地知识库问答系统

8spAi – Ai全能小助手系统

Teable – AI no-code database, Full-scenario Full-automatic
