FaceFusion语音+视频口型同步功能，本地安装升级详细步骤。

AI探索与发现

26 Feb 202412:00

Summary

TLDR本视频介绍了AI探索与发现节目中facefusion新功能的详细操作和效果。新功能包括语音驱动口型同步和改进的人脸识别模型YOLOface，提升了在光线不足情况下的识别准确性。视频还演示了如何从旧版本升级到2.3.0版本，并提供了创建一键运行脚本的技巧。此外，还分享了使用新功能时的参数设置建议和不同场景下的模型选择推荐，帮助用户更高效地使用facefusion进行面部交换和增强。

Takeaways

🎉 新版facefusion增加了语音驱动口型同步功能，可以通过提供语音和正脸视频实现低成本视频数字人的制作。
🌟 引入了新的人脸识别模型，提高了在光线不佳情况下的识别准确性，尤其在识别低头和侧脸画面时更为精准。
📋 升级前需确认已安装2.2.1或更早版本，且是通过git工具手动安装的。
💻 升级过程包括git pull更新程序文件、激活虚拟环境、更新依赖包等步骤。
🚀 在中国大陆使用时，建议开启代理以优化更新和下载速度。
🔄 确认CUDA版本后，通过install.py更新相关依赖包和CUDA版本。
📂 手动下载并添加新模型至facefusion安装目录下的models文件夹中。
🎯 使用语音驱动口型功能时，建议选择YOLO模型，并配合人脸增强以改善效果。
🤖 换脸功能中，YOLO模型在速度和显存使用上有所提升，但需根据视频内容选择合适的模型和遮罩组合。
🔍 新版增加了人脸年龄预测和性别预测功能，但封闭遮罩下YOLO模型性能有所下降。
🚫 遇到复杂面部镜头超出2D人脸识别和交换模型处理范围时，可能需要多次尝试以达到最佳效果。

Q & A

facefusion的新功能有哪些？
-facefusion的新功能包括语音驱动口型同步和新的人脸识别模型YOLOface。
如何实现语音和口型的同步？
-用户提供一段语音和正脸拍摄的视频，经过facefusion融合后，可以实现语音和口型的同步。
升级facefusion的前提条件是什么？
-升级facefusion的前提条件是已经成功安装过2.2.1或者更早的版本，并且是使用git工具克隆的方式手动安装的。
中国大陆用户在更新facefusion时需要注意什么？
-中国大陆用户在更新facefusion时，建议先打开代理再更新，以解决可能遇到的网络问题。
如何确认已安装的CUDA版本？
-可以通过输入'pip list'命令查看原来安装时用的CUDA版本，特别是torch这一行后面的字符标识。
更新依赖包时遇到问题怎么办？
-更新依赖包时如果遇到问题，应该检查网络连接，并确保科学上网工具正常工作。
如何使用新增的YOLOface人脸识别模型？
-在操作界面选择新增的YOLOface模型作为人脸识别模型，它会自动应用到换脸或其他相关功能中。
为什么使用英文语音的效果会比中文好？
-使用英文语音的效果明显好于中文，可能是因为英文的音素和口型变化与facefusion模型训练时使用的数据集更匹配。
如何处理视频中的多个人脸？
-如果视频画面中出现两个或两个以上的人脸，可以使用'one模式'来指定替换其中一个人脸。
如何提高换脸速度？
-增加线程数量可以提高换脸速度，但应根据显存大小适当调整，避免超出显存容量。
facefusion如何处理低头侧脸的画面？
-新版本的facefusion在人脸识别上做了很多优化，增加了特征点的人脸识别，提高了在光线不好或低头侧脸情况下的识别准确性。
如何创建一键运行脚本？
-在facefusion安装目录下新建一个文本文件，命名并输入运行指令，保存后将后缀TXT改为BAT，双击即可直接运行facefusion。

Outlines

00:00

🚀 升级指南与新功能介绍

本段介绍了如何从旧版本升级到facefusion 2.3.0版本的详细步骤，包括使用git工具克隆更新、激活虚拟环境、更新依赖包等。同时，展示了新版本增加的语音驱动口型功能和人脸识别模型YOLOface，以及如何在光线不佳的情况下提高人脸识别的准确性。此外，还提供了中国大陆用户科学上网的建议，以及手动下载模型的方法，以便在下载速度慢时能快速更新。

05:01

🎭 语音驱动口型与YOLO模型的使用细节

这一段详细阐述了使用语音驱动口型功能的操作流程，包括调整线程数量以优化视频处理速度、选择YOLO模型以提高识别速度和准确性，并讨论了英文与中文语音在驱动口型上的差异。同时，介绍了新YOLO模型在换脸操作中的细节，如何根据视频中人脸的不同情况选择合适的模型和遮罩组合，以及新版本在人脸识别上的优化和新增的年龄预测、性别预测功能。

10:01

🎵 音乐分享与视频效果展示

最后一段通过分享音乐和展示视频效果，来测试新版本模型在处理低头侧脸画面的能力。通过观察视频中的替换效果，可以发现新版模型在处理复杂面部镜头时的性能，尤其是在头部转向接近90度时的局限性。这段内容不仅提供了对新版facefusion功能的实际体验，也展示了其在极限情况下的处理能力。

Mindmap

Keywords

💡facefusion

facefusion是一个面部交换和增强的软件工具，它能够通过技术手段将视频中的人物面部与提供的视频或图片进行替换和融合。在视频中，facefusion的新功能被详细介绍，包括语音驱动口型同步和改进的人脸识别模型。

💡语音驱动口型

语音驱动口型是指通过提供一段语音和对应的视频，经过软件处理后，视频中的人物口型能够与提供的语音同步，即使原视频中的人物并未说出这些话。这项技术在视频制作和娱乐领域有着广泛的应用。

💡人脸识别模型

人脸识别模型是一种计算机视觉技术，通过算法识别和处理图像或视频中的人脸信息。在facefusion中，新加入的YOLOface模型提高了在光线不佳或面部角度变化大的情况下的识别准确性。

💡git工具

git是一个开源的分布式版本控制系统，用于跟踪和协调计算机文件的变化。在视频中，git工具被用于手动安装和更新facefusion软件。

💡CUDA版本

CUDA是NVIDIA推出的一个并行计算平台和API模型，它允许软件开发人员使用GPU（图形处理单元）进行通用处理。在facefusion中，CUDA版本与Pytorch版本相关联，用于确认安装的Pytorch是否与显卡兼容。

💡显卡加速

显卡加速是指利用显卡的计算能力来提高程序运行速度。在facefusion中，如果用户的电脑配备了英伟达显卡，可以开启显卡加速功能，以加快视频处理速度。

💡模型下载

模型下载是指从互联网上获取预训练好的模型文件，这些文件通常用于机器学习和深度学习应用中。在facefusion中，新版本的模型需要用户手动下载并放置到指定目录下才能使用。

💡一键运行脚本

一键运行脚本是一种简化操作的脚本文件，用户只需双击该脚本即可自动执行一系列命令。在facefusion中，用户可以通过创建一键运行脚本来方便地启动程序。

💡换脸功能

换脸功能是指将一个人的脸替换成另一个人的脸的技术。在facefusion中，这是软件的核心功能之一，用户可以通过这个功能将视频中的人物面部替换成其他视频或图片中的面部。

💡封闭遮罩

封闭遮罩是一种图像处理技术，用于指定图像中需要处理的特定区域。在facefusion中，封闭遮罩可以用来指定只替换视频中特定人物的面部，而不是所有检测到的人脸。

💡特征点

特征点是指在图像识别和处理中用于定位和识别特定特征的点。在facefusion中，新版本的人脸识别模型增加了特征点数量，以提高识别的精确度。

Highlights

facefusion新增功能，可以通过提供一段语音和正脸视频实现语音和口型的同步

facefusion的更新还包括新的人脸识别模型，提高了在光线不足情况下的识别准确性

升级facefusion的前提是已经安装过2.2.1或更早版本，并且是通过git手动安装的

中国大陆用户在更新程序文件时建议先打开代理

更新依赖包后，程序升级即算完成

运行程序时，可以跳过下载参数以验证升级是否成功

英伟达显卡用户需要确认CUDA版本并进行相应的升级操作

新版本增加的模型会在第一次使用时自动下载

中国大陆用户在使用科学上网下载模型时可能会遇到速度慢的问题，可以手动下载模型

提供了创建一键运行脚本的方法，方便用户快速启动facefusion

使用语音驱动口型功能时，建议选择YOLO模型以提高识别速度和准确性

语音驱动口型功能中，英文语音的效果通常优于中文

YOLO模型在处理无遮挡人脸时表现优秀，推荐与box遮罩一起使用

新版本中，YOLO模型在人脸识别上做了优化，增加了特征点和预测功能

对于复杂面部镜头，需要多次尝试以达到最佳效果

新版facefusion在处理极端角度的头部转向时仍有局限性

视频分享结束时，作者用音乐和视频内容作为互动，邀请观众寻找视频中的破绽

facefusion被誉为下一代的面部交换和增强工具，是市面上最佳的面部交换软件