FaceFusion语音+视频口型同步功能,本地安装升级详细步骤。
Summary
TLDR本视频介绍了AI探索与发现节目中facefusion新功能的详细操作和效果。新功能包括语音驱动口型同步和改进的人脸识别模型YOLOface,提升了在光线不足情况下的识别准确性。视频还演示了如何从旧版本升级到2.3.0版本,并提供了创建一键运行脚本的技巧。此外,还分享了使用新功能时的参数设置建议和不同场景下的模型选择推荐,帮助用户更高效地使用facefusion进行面部交换和增强。
Takeaways
- 🎉 新版facefusion增加了语音驱动口型同步功能,可以通过提供语音和正脸视频实现低成本视频数字人的制作。
- 🌟 引入了新的人脸识别模型,提高了在光线不佳情况下的识别准确性,尤其在识别低头和侧脸画面时更为精准。
- 📋 升级前需确认已安装2.2.1或更早版本,且是通过git工具手动安装的。
- 💻 升级过程包括git pull更新程序文件、激活虚拟环境、更新依赖包等步骤。
- 🚀 在中国大陆使用时,建议开启代理以优化更新和下载速度。
- 🔄 确认CUDA版本后,通过install.py更新相关依赖包和CUDA版本。
- 📂 手动下载并添加新模型至facefusion安装目录下的models文件夹中。
- 🎯 使用语音驱动口型功能时,建议选择YOLO模型,并配合人脸增强以改善效果。
- 🤖 换脸功能中,YOLO模型在速度和显存使用上有所提升,但需根据视频内容选择合适的模型和遮罩组合。
- 🔍 新版增加了人脸年龄预测和性别预测功能,但封闭遮罩下YOLO模型性能有所下降。
- 🚫 遇到复杂面部镜头超出2D人脸识别和交换模型处理范围时,可能需要多次尝试以达到最佳效果。
Q & A
facefusion的新功能有哪些?
-facefusion的新功能包括语音驱动口型同步和新的人脸识别模型YOLOface。
如何实现语音和口型的同步?
-用户提供一段语音和正脸拍摄的视频,经过facefusion融合后,可以实现语音和口型的同步。
升级facefusion的前提条件是什么?
-升级facefusion的前提条件是已经成功安装过2.2.1或者更早的版本,并且是使用git工具克隆的方式手动安装的。
中国大陆用户在更新facefusion时需要注意什么?
-中国大陆用户在更新facefusion时,建议先打开代理再更新,以解决可能遇到的网络问题。
如何确认已安装的CUDA版本?
-可以通过输入'pip list'命令查看原来安装时用的CUDA版本,特别是torch这一行后面的字符标识。
更新依赖包时遇到问题怎么办?
-更新依赖包时如果遇到问题,应该检查网络连接,并确保科学上网工具正常工作。
如何使用新增的YOLOface人脸识别模型?
-在操作界面选择新增的YOLOface模型作为人脸识别模型,它会自动应用到换脸或其他相关功能中。
为什么使用英文语音的效果会比中文好?
-使用英文语音的效果明显好于中文,可能是因为英文的音素和口型变化与facefusion模型训练时使用的数据集更匹配。
如何处理视频中的多个人脸?
-如果视频画面中出现两个或两个以上的人脸,可以使用'one模式'来指定替换其中一个人脸。
如何提高换脸速度?
-增加线程数量可以提高换脸速度,但应根据显存大小适当调整,避免超出显存容量。
facefusion如何处理低头侧脸的画面?
-新版本的facefusion在人脸识别上做了很多优化,增加了特征点的人脸识别,提高了在光线不好或低头侧脸情况下的识别准确性。
如何创建一键运行脚本?
-在facefusion安装目录下新建一个文本文件,命名并输入运行指令,保存后将后缀TXT改为BAT,双击即可直接运行facefusion。
Outlines
🚀 升级指南与新功能介绍
本段介绍了如何从旧版本升级到facefusion 2.3.0版本的详细步骤,包括使用git工具克隆更新、激活虚拟环境、更新依赖包等。同时,展示了新版本增加的语音驱动口型功能和人脸识别模型YOLOface,以及如何在光线不佳的情况下提高人脸识别的准确性。此外,还提供了中国大陆用户科学上网的建议,以及手动下载模型的方法,以便在下载速度慢时能快速更新。
🎭 语音驱动口型与YOLO模型的使用细节
这一段详细阐述了使用语音驱动口型功能的操作流程,包括调整线程数量以优化视频处理速度、选择YOLO模型以提高识别速度和准确性,并讨论了英文与中文语音在驱动口型上的差异。同时,介绍了新YOLO模型在换脸操作中的细节,如何根据视频中人脸的不同情况选择合适的模型和遮罩组合,以及新版本在人脸识别上的优化和新增的年龄预测、性别预测功能。
🎵 音乐分享与视频效果展示
最后一段通过分享音乐和展示视频效果,来测试新版本模型在处理低头侧脸画面的能力。通过观察视频中的替换效果,可以发现新版模型在处理复杂面部镜头时的性能,尤其是在头部转向接近90度时的局限性。这段内容不仅提供了对新版facefusion功能的实际体验,也展示了其在极限情况下的处理能力。
Mindmap
Keywords
💡facefusion
💡语音驱动口型
💡人脸识别模型
💡git工具
💡CUDA版本
💡显卡加速
💡模型下载
💡一键运行脚本
💡换脸功能
💡封闭遮罩
💡特征点
Highlights
facefusion新增功能,可以通过提供一段语音和正脸视频实现语音和口型的同步
facefusion的更新还包括新的人脸识别模型,提高了在光线不足情况下的识别准确性
升级facefusion的前提是已经安装过2.2.1或更早版本,并且是通过git手动安装的
中国大陆用户在更新程序文件时建议先打开代理
更新依赖包后,程序升级即算完成
运行程序时,可以跳过下载参数以验证升级是否成功
英伟达显卡用户需要确认CUDA版本并进行相应的升级操作
新版本增加的模型会在第一次使用时自动下载
中国大陆用户在使用科学上网下载模型时可能会遇到速度慢的问题,可以手动下载模型
提供了创建一键运行脚本的方法,方便用户快速启动facefusion
使用语音驱动口型功能时,建议选择YOLO模型以提高识别速度和准确性
语音驱动口型功能中,英文语音的效果通常优于中文
YOLO模型在处理无遮挡人脸时表现优秀,推荐与box遮罩一起使用
新版本中,YOLO模型在人脸识别上做了优化,增加了特征点和预测功能
对于复杂面部镜头,需要多次尝试以达到最佳效果
新版facefusion在处理极端角度的头部转向时仍有局限性
视频分享结束时,作者用音乐和视频内容作为互动,邀请观众寻找视频中的破绽
facefusion被誉为下一代的面部交换和增强工具,是市面上最佳的面部交换软件
Transcripts
Hello!大家好!
欢迎来到AI探索与发现
facefusion又有新功能了
现在不仅可以换脸
还能让视频里的人开口说话
只要你提供一段语音
和一个正脸拍摄的视频 经过融合之后
就能实现语音和口型的同步
低成本视频数字人又多了一个可选方案
这次更新另一个重大提升是
加入了新的人脸识别模型
大大提高了在光线不好的情况下
人脸识别的准确性
特别是识别低头 侧脸的画面时更加精准
今天视频就来详细介绍
如何从老版本升级
并演示新增功能的使用和效果
从老版本升级的前提是
已经成功安装过2.2.1或者更早的版本
并且是使用git工具克隆的方式手动安装的
如果你没有安装过任何版本
也可以参考这期视频
直接安装最新的版本
首先到安装的facefusion目录下
比如我的安装目录是D:\AI\facefusion
路径栏输入CMD打开命令窗口
输入第一条指令 git pull
这里提醒一下 中国大陆的朋友
如果能科学上网 建议先打开代理再更新
成功更新程序文件以后
输入第2条指令 激活创建的虚拟环境
然后输入第3条指令
更新安装的依赖包
更新依赖包的过程如果没有出错
那程序升级就顺利完成了
最后我们来运行程序
验证升级是否成功
输入运行指令
并加上这个跳过下载的参数
网页里输入本地运行地址
操作主界面能成功打开
这里版本也显示为2.3.0
这个选项就是新增的语音驱动口型的功能
拉到底部
也可以看到新增的人脸识别模型YOLOface
整个操作界面看上去
好像已经升级成功了
但仔细观察一下
这里的选项是不对的
没有显卡加速
因此如果你的是英伟达显卡
还要再进行升级的最后一步操作
切回到命令窗口
按Ctrl+C终止运行
先输入 pip list
查看一下原来安装时用的CUDA版本
只需要确认torch这一行
看加号后面的字符标识
这里显示是cu118
代表我原来版本安装的是cuda11.8的Pytorch
确认好以后
再输入这条指令 python install.py
这里会出现第一个安装选项
要我们选择CUDA版本
前面已经确认过cuda是11.8
所以选最后一个
然后出现第二个选项
也同样选择
跟之前安装时一样的cuda版本
选好以后回车
安装程序就会自动更新相关的依赖包
同样这里的更新
在中国大陆的朋友也需要科学上网
整个更新过程不需要干预
更不要用鼠标点击命令窗口
只需要耐心等待全部更新完成
整个过程如果没有出现错误
就代表更新成功了
输入运行指令
刷新一下网页
现在这里就能看到cuda选项了
新版本增加的模型
会在第一次使用时自动下载
比如现在选择语音驱动口型的功能
程序如果在本地找不到相关模型
就会先下载
在命令窗口可以看到下载进度
不过在中国大陆的朋友
这里即使开了科学上网
下载的速度也非常慢
解决办法是手动下载模型
打开官方项目的模型列表页面
红框标识的就是2.3版本新增的模型
总共有5个
下载好以后 我们把它剪切粘贴到
facefusion安装目录下的models目录里
到这里新版本升级和模型的更新就全部完成了
重新运行程序就能使用新版本了
如果嫌每次输入运行指令太麻烦
这里跟大家介绍 一个创建一键运行脚本的方法
首先到facefusion安装目录下
新建一个文本文件
然后把它重新命名
比如叫一键启动
双击打开它
复制这段指令粘贴过来
保存关闭
最后把这个文件的后缀TXT改成BAT
如果在你系统上看不到TXT后缀
可以点击这里的[查看]
勾选上[文件扩展名]就能看到了
现在双击一键启动
就能直接运行facefusion了
下面来介绍新增的两项功能
首先是用语音驱动视频里的人物口型
先勾选这个选项
然后去掉默认的换脸选项
因为口型同步和换脸功能是不能同时使用的
把准备好的语音文件拖放到这里
我就用这段8秒的语音来测试
然后再把视频拖进来
勾选上cuda加速
调整线程数量
这个参数很重要
直接影响到视频的处理速度
不过程序在这里有一点bug
有时直接输入值会无效
建议用后面的上下按钮来调整大小
一般最大可以调整到显存的两倍
比如8G显存最大可以调到16
下面的参数基本不用改了
默认值就是最佳设置
然后是右边参数
可以看到这里默认的人脸识别模型是YOLO
这个模型在deepfacelive这一期视频有过介绍
全称叫You Only Look Once(你只需看一次)
谷歌出品
无论是识别速度还是准确性都非常优秀
使用语音驱动口型功能时建议就选它
其他所有参数也不用改默认就好
不过在预览这里可以明显看到
使用音频驱动口型以后
嘴巴部分变得非常模糊
所以建议再加上脸部增强
我们来替换一下看看效果
口型基本对上了
不过牙齿的效果不是太好
这里的语音如果换成歌曲也是可以的
融合以后是这样的效果
这个功能我测试下来
发现使用英文语音的效果明显好于中文
如果视频拍摄的是中景
替换以后的唇部动作
要比脸部特写的视频更加自然
最后来介绍下使用新的YOLO模型
换脸时的一些操作细节
左侧参数的设置跟之前版本一样
没什么变化
添加人脸增强
设置cuda加速
去掉默认的CPU选项
增加线程数量提高换脸速度
右侧这个参数
人脸选择模式这里有细微变化
如果视频画面中
同时出现两个或两个以上的人脸时
只替换其中一个人面部
建议使用[one模式]来指定
默认的YOLO模型
在画面中出现多张人脸时
这里如果使用默认的第一个reference模式
指定替换人脸有时会不起作用
我们来替换一下看看效果
新模型在替换速度上
稍快于之前版本的retinaface
另外 替换时显存的使用率也有所提高
当设置了12个线程时
8G显存接近拉满
替换完成
在不使用封闭遮罩的情况下
YOLO模型的整体效果
要好于老版本的retinaface
主要是新版本在人脸识别上做了很多优化
我们可以打开调试选项
就能看到这些变化
包括增加了5个特征点的人脸识别
原来是68个特征点
虽然特征点越多
在识别正面人脸时更加精确
但识别低头侧脸
或者光线不好时的人脸
就容易误判
另外这次还增加了人脸的年龄预测和性别预测功能
不过新的YOLO在配合封闭遮罩时
感觉整体性能有所下降
所以可以根据要替换的视频内容
来灵活选择不同的人脸识别模型
以下是几种场景下的模型和遮罩组合的推荐
如果使用语音驱动视频功能
人脸识别模型就使用YOLO加人脸增强
换脸的情况下
如果视频中人脸没有遮挡
推荐使用YOLO加box遮罩
如果视频中人脸有大量遮挡
推荐使用老版本retinaface加封闭遮罩
如果视频中人脸只有少量遮挡
但存在大量低头侧脸的画面
推荐使用YOLO加box遮罩
以上推荐则是基于当前版本的测试
可能以后新版本会有所变化
实际操作时对于复杂的面部镜头
还是要多次尝试才能达到最佳的效果
当有些面部镜头超出了基于2D人脸识别
和交换模型的处理范围时
比如这个视频
在头部转向接近90度时
模型就无法处理了
无论如何调整参数
重绘以后的面部都会存在严重变形
甚至出现多个眼睛
最后来请大家听一段音乐
这个视频里有大量低头侧脸的画面
但角度还没有超过模型的处理范围
使用新版模型替换之后
不知道你能否找到其中的破绽
好 今天的分享就到这里
感谢观看 咱们下期见
你的辫子长长
你的眼睛亮亮
我的心儿慌慌
我的大脑缺氧
fusion is a face swapper and enhancer of the next generation
face fusion is the best face swapper out there
5.0 / 5 (0 votes)